CN107451117A

CN107451117A - 英文文本的分词方法及装置

Info

Publication number: CN107451117A
Application number: CN201710580373.4A
Authority: CN
Inventors: 晋彤; 李永康
Original assignee: Guangzhou Special Road Mdt Infotech Ltd
Current assignee: Guangzhou Special Road Mdt Infotech Ltd
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2017-12-08

Abstract

本发明实施例公开了一种英文文本的分词方法及装置，通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练，然后根据已完成训练的所述标准词库，对所述待分词文本进行时态和复数的还原处理获得标准词条，再接收待分词文本，对所述待分词文本进行特征提取，根据提取的特征识别所述待分词文本所属的领域，接着根据所述待分词文本所属的领域对所述标准词条进行分词处理，可以支撑基于自然语言处理的词条切分，能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎，能有效进行全文的场景识别然后切分词条，有利于后续文本的挖掘处理。

Description

英文文本的分词方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种英文文本的分词方法及装置。

背景技术

伴随着信息时代的到来，全球互联网和通讯事业发生了翻天覆地的变化，导致以电子形式存储和处理的数据***性增长，存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长文本数据，如文章、资讯等。

现有的分词方法中用于匹配的词库是二维的，最多只有词性和简单的概率权重。在算法模型上，并未识别长文本所述的领域，不能对得到准确的分词结果。另一方面，现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎。

发明内容

本发明实施例的目的是提供一种英文文本的分词方法及装置，能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎，能有效进行全文的场景识别然后切分词条，有利于后续文本的挖掘处理。

为实现上述目的，本发明实施例提供了一种英文文本的分词方法，包括步骤：

通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练；

根据已完成训练的所述标准词库，对所述待分词文本进行时态和复数的还原处理获得标准词条；

接收待分词文本，对所述待分词文本进行特征提取，根据提取的特征识别所述待分词文本所属的领域；

根据所述待分词文本所属的领域对所述标准词条进行分词处理。

与现有技术相比，本发明公开的英文文本的分词方法

作为上述方案的改进，还包括步骤：

通过CRF模型，识别所述待分词文本的场景，根据所述待分词文本的场景对所述待分词文本进行歧义识别。该步骤能有效进行全文的场景识别然后切分词条，有利于后续文本的挖掘处理。

作为上述方案的改进，所述标准词库包括采集通用词库、实体词库和领域预料中的一种或多种内容。

作为上述方案的改进，通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。

作为上述方案的改进，通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。

本发明实施例还提供了一种英文文本的分词装置，包括：

训练模块，用于通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练；

标准词条获取模块，用于根据已完成训练的所述标准词库，对所述待分词文本进行时态和复数的还原处理获得标准词条；

特征提取模块，用于接收待分词文本，对所述待分词文本进行特征提取，根据提取的特征识别所述待分词文本所属的领域；

分词模块，用于根据所述待分词文本所属的领域对所述标准词条进行分词处理。

与现有技术相比，本发明实施例提供的英文文本的分词装置通过训练模块将大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练，然后通过标准词条获取模块根据已完成训练的所述标准词库，对所述待分词文本进行时态和复数的还原处理获得标准词条，再通过特征提取模块接收待分词文本，对所述待分词文本进行特征提取，根据提取的特征识别所述待分词文本所属的领域，接着通过分词模块根据所述待分词文本所属的领域对所述标准词条进行分词处理，可以支撑基于自然语言处理的词条切分，能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎，能有效进行全文的场景识别然后切分词条，有利于后续文本的挖掘处理。

作为上述方案的改进，所述分词装置还包括歧义识别模块，用于通过CRF模型，识别所述待分词文本的场景，根据所述待分词文本的场景对所述待分词文本进行歧义识别。

作为上述方案的改进，所述训练模块通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。

作为上述方案的改进，所述训练模块通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。

附图说明

图1是本发明实施例1提供的一种英文文本的分词方法的流程示意图。

图2是本发明实施例2提供的一种英文文本的分词方法的流程示意图。

图3是本发明实施例3提供的一种英文文本的分词装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例1提供的一种英文文本的分词方法的流程示意图，包括步骤：

S1、通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练；

优选地，所述标准词库包括采集通用词库、实体词库和领域预料中的一种或多种内容。

S2、根据已完成训练的所述标准词库，对所述待分词文本进行时态和复数的还原处理获得标准词条；

S3、接收待分词文本，对所述待分词文本进行特征提取，根据提取的特征识别所述待分词文本所属的领域；

S4、根据所述待分词文本所属的领域对所述标准词条进行分词处理。

具体实施时，通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练，然后根据已完成训练的所述标准词库，对所述待分词文本进行时态和复数的还原处理获得标准词条，再接收待分词文本，对所述待分词文本进行特征提取，根据提取的特征识别所述待分词文本所属的领域，接着根据所述待分词文本所属的领域对所述标准词条进行分词处理，可以支撑基于自然语言处理的词条切分，，能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎，能有效进行全文的场景识别然后切分词条，有利于后续文本的挖掘处理。

参见图2，是本发明实施例2提供的一种英文文本的分词方法的流程示意图，在实施例1的基础上，还包括步骤：

S5、通过CRF模型，识别所述待分词文本的场景，根据所述待分词文本的场景对所述待分词文本进行歧义识别。

在该步骤中，进行歧义识别具体通过联系上下文进行，可以对同一段词汇的容易混淆的意思进行深度识别。CRF(Cond i t i ona l Random Fi e l d)条件随机场是近几年自然语言处理领域常用的算法之一，常用于句法分析、命名实体识别、词性标注等。

优选地，通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。

优选地，通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。

通过上述方案，可以多种时态和语态的训练，从而得到更为准确的分词结果。

参见图3，是本发明实施例3提供的一种英文文本的分词装置的结构示意图，包括：

训练模块101，用于通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练；

标准词条获取模块102，用于根据已完成训练的所述标准词库，对所述待分词文本进行时态和复数的还原处理获得标准词条；

特征提取模块103，用于接收待分词文本，对所述待分词文本进行特征提取，根据提取的特征识别所述待分词文本所属的领域；

分词模块104，用于根据所述待分词文本所属的领域对所述标准词条进行分词处理。

具体实施时，通过训练模块101将大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练，然后通过标准词条获取模块102根据已完成训练的所述标准词库，对所述待分词文本进行时态和复数的还原处理获得标准词条，再通过特征提取模块103接收待分词文本，对所述待分词文本进行特征提取，根据提取的特征识别所述待分词文本所属的领域，接着通过分词模块104根据所述待分词文本所属的领域对所述标准词条进行分词处理，可以支撑基于自然语言处理的词条切分，，能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎，能有效进行全文的场景识别然后切分词条，有利于后续文本的挖掘处理。

优选地，所述英文文本的分词装置100还包括：

所述分词装置还包括歧义识别模块，用于通过CRF模型，识别所述待分词文本的场景，根据所述待分词文本的场景对所述待分词文本进行歧义识别。

在一优选实施例中，所述标准词库包括采集通用词库、实体词库和领域预料中的一种或多种内容。

在一优选实施例中，所述训练模块通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。

在一优选实施例中，所述训练模块通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。

综上，本发明实施例提供了一种英文文本的分词方法及装置，通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练，然后根据已完成训练的所述标准词库，对所述待分词文本进行时态和复数的还原处理获得标准词条，再接收待分词文本，对所述待分词文本进行特征提取，根据提取的特征识别所述待分词文本所属的领域，接着根据所述待分词文本所属的领域对所述标准词条进行分词处理，可以支撑基于自然语言处理的词条切分，，能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎，能有效进行全文的场景识别然后切分词条，有利于后续文本的挖掘处理。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种英文文本的分词方法，其特征在于，包括步骤：

2.如权利要求1所述的英文文本的分词方法，其特征在于，还包括步骤：

通过CRF模型，识别所述待分词文本的场景，根据所述待分词文本的场景对所述待分词文本进行歧义识别。

3.如权利要求1所述的英文文本的分词方法，其特征在于，所述标准词库包括采集通用词库、实体词库和领域预料中的一种或多种内容。

4.如权利要求1所述的英文文本的分词方法，其特征在于，通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。

5.如权利要求1所述的英文文本的分词方法，其特征在于，通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。

6.一种英文文本的分词装置，其特征在于，包括：

7.如权利要求6所述的英文文本的分词装置，其特征在于，所述分词装置还包括歧义识别模块，用于通过CRF模型，识别所述待分词文本的场景，根据所述待分词文本的场景对所述待分词文本进行歧义识别。

8.如权利要求6所述的英文文本的分词装置，其特征在于，所述标准词库包括采集通用词库、实体词库和领域预料中的一种或多种内容。

9.如权利要求6所述的英文文本的分词装置，其特征在于，所述训练模块通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。

10.如权利要求6所述的英文文本的分词装置，其特征在于，所述训练模块通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。