CN105550291A

CN105550291A - 文本分类方法和装置

Info

Publication number: CN105550291A
Application number: CN201510918981.2A
Authority: CN
Inventors: 赵建明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-05-04
Anticipated expiration: 2035-12-10
Also published as: CN105550291B

Abstract

本发明公开了一种文本分类方法和装置，其中，方法包括以下步骤：接收输入的文本数据，并将文本数据切分为多个分词；对多个分词进行归一化，并生成文本数据对应的归一化结果；以及将归一化结果转换为语义特征，并基于预设分类模型对语义特征进行分类。本发明实施例的文本分类方法和装置，通过接收输入的文本数据，并将文本数据切分为多个分词，对多个分词进行归一化，并生成文本数据对应的归一化结果，以及将归一化结果转换为语义特征，并基于预设分类模型对语义特征进行分类，只需对训练语料进行归一化，无需频繁增加训练语料对模型进行重新训练，降低了工作量，降低人工成本，并提升了模型训练效率，训练的模型稳定性高，鲁棒性好。

Description

文本分类方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本分类方法和装置。

背景技术

文本分类是指在预定的分类体系下，对文本进行分类标注的过程，能够为意图识别等提供数据基础。目前，文本分类方法可分为以下几个步骤：1)确定分类体系，主要根据需求确定分类的类别数和类别名称；2)收集训练数据，主要通过人工编辑或者网络爬虫等方法为每个分类类别收集相应的训练数据；3)对训练数据进行分词处理；4)模型训练，对获得的分词进行特征提取，然后进行模型训练；5)对输入的文本进行分类，基于预先训练好的模型对输入的文本进行分类。

但是，上述文本分类方法主要存在以下几个缺陷：当模型中无法对当前文本进行分类时，需要根据当前文本重新训练模型，因此需要大量的高质量的训练语料进行模型训练，工作量大，人工成本高，训练的模型鲁棒性差，稳定性差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种文本分类方法，能够降低工作量，降低人工成本，并提升模型训练效率，训练的模型稳定性高，鲁棒性好。

本发明的第二个目的在于提出一种文本分类装置。

为了实现上述目的，本发明第一方面实施例提出了一种文本分类方法，包括：接收输入的文本数据，并将所述文本数据切分为多个分词；对所述多个分词进行归一化，并生成所述文本数据对应的归一化结果；以及将所述归一化结果转换为语义特征，并基于预设分类模型对所述语义特征进行分类。

本发明实施例的文本分类方法，通过接收输入的文本数据，并将文本数据切分为多个分词，对多个分词进行归一化，并生成文本数据对应的归一化结果，以及将归一化结果转换为语义特征，并基于预设分类模型对语义特征进行分类，只需对训练语料进行归一化，无需频繁增加训练语料对模型进行重新训练，降低了工作量，降低人工成本，并提升了模型训练效率，训练的模型稳定性高，鲁棒性好。

本发明第二方面实施例提出了一种文本分类装置，包括：接收模块，用于接收输入的文本数据，并将所述文本数据切分为多个分词；归一化模块，用于对所述多个分词进行归一化，并生成所述文本数据对应的归一化结果；以及分类模块，用于将所述归一化结果转换为语义特征，并基于预设分类模型对所述语义特征进行分类。

本发明实施例的文本分类装置，通过接收输入的文本数据，并将文本数据切分为多个分词，对多个分词进行归一化，并生成文本数据对应的归一化结果，以及将归一化结果转换为语义特征，并基于预设分类模型对语义特征进行分类，只需对训练语料进行归一化，无需频繁增加训练语料对模型进行重新训练，降低了工作量，降低人工成本，并提升了模型训练效率，训练的模型稳定性高，鲁棒性好。

附图说明

图1是根据本发明一个实施例的文本分类方法的流程图；

图2是根据本发明一个实施例的建立预设分类模型的流程图；

图3是根据本发明一个实施例的文本分类装置的结构示意图一；

图4是根据本发明一个实施例的文本分类装置的结构示意图二。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的文本分类方法和装置。

图1是根据本发明一个实施例的文本分类方法的流程图。

如图1所示，文本分类方法可包括：

S1、接收输入的文本数据，并将文本数据切分为多个分词。

具体地，可接收输入的文本数据，然后可基于CRF模型(条件随机场，ConditionalRandomField)对文本数据进行切分，将其切分为多个分词。举例来说，文本数据为“太原飞至青岛的飞机”，可将其切分为“太原”、“飞至”、“青岛”、“的”、“飞机”五个分词。

S2、对多个分词进行归一化，并生成文本数据对应的归一化结果。

下面继续步骤S1中的例子进行描述，在将文本数据“太原飞至青岛的飞机”切分为“太原”、“飞至”、“青岛”、“的”、“飞机”五个分词之后，可对分词进行归一化，“太原”和“青岛”属于City类，“飞至”可归一化为“飞往”，则获得的归一化结果为“city/飞往/city/的/飞机”。

S3、将归一化结果转换为语义特征，并基于预设分类模型对语义特征进行分类。

下面继续步骤S1中的例子进行描述，可将归一化结果转换为语义特征city、city_飞往、飞往、city_飞往_city、飞往_city、飞往_city_的、city_的、city_的_飞机，将上述语义特征与预先建立的分类模型进行匹配，最终可得到匹配结果为Flight类。

下面详细说明一下建立预设分类模型的过程。

具体地，如图2所示，可包括以下步骤：

S11、收集训练语料，并将训练语料切分为多个训练分词。

具体地，可通过人工编辑或者网络爬虫的方式抓取训练语料，然后基于CRF模型将训练语料切分为多个训练分词。

S12、对多个训练分词进行归一化，并生成多个训练分词对应的归一化样本。

其中，归一化可包括基于规则的归一化、基于实体识别的归一化。基于规则的归一化还可包括类别归一化、同义词归一化、正则表达式归一化等。举例来说，“三体”、“诛仙”、“完美世界”、“大主宰”、“斗破苍穹”均为小说名，则可将它们归为Novel类，即小说类。“麻婆豆腐”、“干酪焗蟹”、“龙井虾仁”、“胡萝卜炒蛋”、“红烧鱼”均为菜名，则可将它们归为Recipe类，即食谱类。“北京”、“南京”、“合肥”、“太原”、“青岛”均为城市名称，则可将它们归为City类，即城市类。再例如：“查询”、“查一下”、“查下”、“查询一下”均为查询的意思，属于同义词，则可将它们归为查询类。“飞往”、“飞向”、“飞至”、“飞到”均为飞往的意思，则可将它们归为飞往类。

正则表达式归一化则是对不可枚举的实体进行归一化，例如：正则表达式Radio_Channel:(fm|am|调频|调幅)[0-9一二三四五六七八九十壹贰叁肆伍陆柒捌玖拾点\.]{1,10}。基于该正则表达式，诸如FM98.2、调频38.3、调幅101.2等满足正则的短语均可归为Radio_Channel类别。再例如：正则表达式Video_Unit:(第)[0-9一二三四五六七八九十壹贰叁肆伍陆柒捌玖拾]{1,10}(集|季)。基于该正则表达式，诸如第1集、第23集、第三十五集等满足正则的短语均可归为Video_Unit类别。

基于实体识别的归一化，主要是通过对语句中的实体进行识别，再进行分类的过程。例如：“我想去百度大厦”识别出的实体为“百度大厦”，则可将“百度大厦”归为“POI”类，即地点类。再例如：“邓紫棋的喜欢你”中识别出“邓紫棋”和“喜欢你”两个实体，则可将“邓紫棋”归为“PER”类，即人物类；将“喜欢你”归类为“SONG”类，即歌曲类。

S13、基于汉语语言N-Gram模型将归一化样本转换为N-Gram语义特征。

在本发明的一个实施例中，可采用三元的Tri-Gram模型将归一化样本转换为3-Gram语义特征，例如city、city_飞往、飞往、city_飞往_city、飞往_city、飞往_city_的、city_的、city_的_飞机。

S14、基于最大熵模型对N-Gram语义特征进行训练，以生成预设分类模型。在本发明的一个实施例中，每个训练语料均对应归属一种类别，可被看作为一个事件。大量的训练语料和对应的类别可构成一个事件集。而基于训练语料生成语义特征可作为事件发生的环境。基于上述环境条件去求解最优的概率分布，使得概率分布最大化的满足已知的分类约束条件，从而对这些训练语料进行分类，进而建立分类模型。

应当理解的是，生成预设分类模型不仅限于最大熵模型，也可采用其他模型生成分类模型。

为实现上述目的，本发明还提出一种文本分类装置。

图3是根据本发明一个实施例的文本分类装置的结构示意图一。

如图3所示，文本分类装置可包括：接收模块110、归一化模块120和分类模块130。

接收模块110用于接收输入的文本数据，并将文本数据切分为多个分词。具体地，接收模块110可接收输入的文本数据，然后可基于CRF模型(条件随机场，ConditionalRandomField)对文本数据进行切分，将其切分为多个分词。举例来说，文本数据为“太原飞至青岛的飞机”，可将其切分为“太原”、“飞至”、“青岛”、“的”、“飞机”五个分词。

归一化模块120用于对多个分词进行归一化，并生成文本数据对应的归一化结果。下面继续步骤S1中的例子进行描述，在将文本数据“太原飞至青岛的飞机”切分为“太原”、“飞至”、“青岛”、“的”、“飞机”五个分词之后，可对分词进行归一化，“太原”和“青岛”属于City类，“飞至”可归一化为“飞往”，则获得的归一化结果为“city/飞往/city/的/飞机”。

分类模块130用于将归一化结果转换为语义特征，并基于预设分类模型对语义特征进行分类。下面继续步骤S1中的例子进行描述，可将归一化结果转换为语义特征city、city_飞往、飞往、city_飞往_city、飞往_city、飞往_city_的、city_的、city_的_飞机，将上述语义特征与预先建立的分类模型进行匹配，最终可得到匹配结果为Flight类。

另外，如图4所示，本发明实施例的文本分类装置还可包括建立模块140。

建立模块140用于在基于预设分类模型对语义特征进行分类之前，建立预设分类模型。其中，建立模块140还可包括切分单元141、归一化单元142、转换单元143和训练单元144。

切分单元141用于收集训练语料，并将训练语料切分为多个训练分词。具体地，可通过人工编辑或者网络爬虫的方式抓取训练语料，然后基于CRF模型将训练语料切分为多个训练分词。

归一化单元142用于对多个训练分词进行归一化，并生成多个训练分词对应的归一化样本。其中，归一化可包括基于规则的归一化、基于实体识别的归一化。基于规则的归一化还可包括类别归一化、同义词归一化、正则表达式归一化等。举例来说，“三体”、“诛仙”、“完美世界”、“大主宰”、“斗破苍穹”均为小说名，则可将它们归为Novel类，即小说类。“麻婆豆腐”、“干酪焗蟹”、“龙井虾仁”、“胡萝卜炒蛋”、“红烧鱼”均为菜名，则可将它们归为Recipe类，即食谱类。“北京”、“南京”、“合肥”、“太原”、“青岛”均为城市名称，则可将它们归为City类，即城市类。再例如：“查询”、“查一下”、“查下”、“查询一下”均为查询的意思，属于同义词，则可将它们归为查询类。“飞往”、“飞向”、“飞至”、“飞到”均为飞往的意思，则可将它们归为飞往类。

转换单元143用于基于汉语语言N-Gram模型将归一化样本转换为N-Gram语义特征。在本发明的一个实施例中，可采用三元的Tri-Gram模型将归一化样本转换为3-Gram语义特征，例如city、city_飞往、飞往、city_飞往_city、飞往_city、飞往_city_的、city_的、city_的_飞机。

训练单元144用于基于最大熵模型对N-Gram语义特征进行训练，以生成预设分类模型。在本发明的一个实施例中，每个训练语料均对应归属一种类别，可被看作为一个事件。大量的训练语料和对应的类别可构成一个事件集。而基于训练语料生成语义特征可作为事件发生的环境。基于上述环境条件去求解最优的概率分布，使得概率分布最大化的满足已知的分类约束条件，从而对这些训练语料进行分类，进而建立分类模型。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文本分类方法，其特征在于，包括以下步骤：

接收输入的文本数据，并将所述文本数据切分为多个分词；

对所述多个分词进行归一化，并生成所述文本数据对应的归一化结果；以及

将所述归一化结果转换为语义特征，并基于预设分类模型对所述语义特征进行分类。

2.如权利要求1所述的方法，其特征在于，在基于预设分类模型对所述语义特征进行分类之前，还包括：

建立所述预设分类模型。

3.如权利要求2所述的方法，其特征在于，所述建立所述预设分类模型，包括：

收集训练语料，并将所述训练语料切分为多个训练分词；

对所述多个训练分词进行归一化，并生成所述多个训练分词对应的归一化样本；

基于汉语语言N-Gram模型将所述归一化样本转换为N-Gram语义特征；

基于最大熵模型对所述N-Gram语义特征进行训练，以生成所述预设分类模型。

4.如权利要求3所述的方法，其特征在于，所述归一化包括基于规则的归一化和/或基于实体识别的归一化。

5.如权利要求4所述的方法，其特征在于，所述基于规则的归一化包括类别归一化、同义词归一化、正则表达式归一化中的一种或多种。

6.一种文本分类装置，其特征在于，包括：

接收模块，用于接收输入的文本数据，并将所述文本数据切分为多个分词；

归一化模块，用于对所述多个分词进行归一化，并生成所述文本数据对应的归一化结果；以及

分类模块，用于将所述归一化结果转换为语义特征，并基于预设分类模型对所述语义特征进行分类。

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

建立模块，用于在基于预设分类模型对所述语义特征进行分类之前，建立所述预设分类模型。

8.如权利要求7所述的装置，其特征在于，所述建立模块，包括：

切分单元，用于收集训练语料，并将所述训练语料切分为多个训练分词；

归一化单元，用于对所述多个训练分词进行归一化，并生成所述多个训练分词对应的归一化样本；

转换单元，用于基于汉语语言N-Gram模型将所述归一化样本转换为N-Gram语义特征；

训练单元，用于基于最大熵模型对所述N-Gram语义特征进行训练，以生成所述预设分类模型。

9.如权利要求8所述的装置，其特征在于，所述归一化包括基于规则的归一化和/或基于实体识别的归一化。

10.如权利要求9所述的方法，其特征在于，所述基于规则的归一化包括类别归一化、同义词归一化、正则表达式归一化中的一种或多种。