CN107402915A

CN107402915A - 多层语义的网络词库的生成方法及装置

Info

Publication number: CN107402915A
Application number: CN201710580677.0A
Authority: CN
Inventors: 晋彤
Original assignee: Guangzhou Special Road Mdt Infotech Ltd
Current assignee: Guangzhou Special Road Mdt Infotech Ltd
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2017-11-28

Abstract

本发明实施例公开了一种多层语义的网络词库的生成方法及装置，通过收集通用词库，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重；收集实体词库，分析所述实体词库中实体的关系，从而生成实体网络，再收集领域预料，根据不同领域对所述领域预料进行训练生成完整的领域词库，然后根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库，用于分词的词库不能对长文本进行准确的词条切分的问题，可以支撑基于自然语言处理的词条切分，并提供更丰富的扩展属性。

Description

多层语义的网络词库的生成方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种多层语义的网络词库的生成方法及装置。

背景技术

伴随着信息时代的到来，全球互联网和通讯事业发生了翻天覆地的变化，导致以电子形式存储和处理的数据***性增长，存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长文本数据，如文章、资讯等。

现有的分词方法中用于匹配的词库是二维的，最多只有词性和简单的概率权重,不能对长文本进行准确的词条切分。

发明内容

本发明实施例的目的是提供一种多层语义的网络词库的生成方法及装置，能有效解决现有的用于分词的词库不能对长文本进行准确的词条切分的问题，可以提供更丰富的扩展属性。

为实现上述目的，本发明实施例提供了一种多层语义的网络词库的生成方法，包括步骤：

收集通用词库，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重；

收集实体词库，分析所述实体词库中实体的关系，从而生成实体网络；

收集领域预料，根据不同领域对所述领域预料进行训练生成完整的领域词库；

根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。

与现有技术相比，本发明公开的多层语义的网络词库的生成方法通过收集通用词库，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重；收集实体词库，分析所述实体词库中实体的关系，从而生成实体网络，再收集领域预料，根据不同领域对所述领域预料进行训练生成完整的领域词库，然后根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库，用于分词的词库不能对长文本进行准确的词条切分的问题，可以支撑基于自然语言处理的词条切分，并提供更丰富的扩展属性。

作为上述方案的改进，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为：

通过人性化模型对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。

作为上述方案的改进，还包括步骤：

根据预设语言的语法对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库。

通过条件随机场对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。

本发明实施例还提供了一种多层语义的网络词库的生成装置，包括：

通用词库生成模块，用于收集通用词库，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重；

实体网络生成模块，用于收集实体词库，分析所述实体词库中实体的关系，从而生成实体网络；

领域词库生成模块，用于收集领域预料，根据不同领域对所述领域预料进行训练生成完整的领域词库；

网络词库生成模块，用于根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。

与现有技术相比，本发明公开的多层语义的网络词库的生成装置通过通用词库生成模块先收集通用词库，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重，再通过实体网络生成模块收集实体词库，分析所述实体词库中实体的关系，从而生成实体网络，然后通过领域词库生成模块收集领域预料，根据不同领域对所述领域预料进行训练生成完整的领域词库，最后通过网络词库生成模块根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库，用于分词的词库不能对长文本进行准确的词条切分的问题，可以支撑基于自然语言处理的词条切分，并提供更丰富的扩展属性。

作为上述方案的改进，所述通用词库生成模块对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为：

作为上述方案的改进，所述装置还包括：

网络词库完善模块，用于根据预设语言的语法对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库。

附图说明

图1是本发明实施例1中一种多层语义的网络词库的生成方法的流程示意图。

图2是本发明实施例2中一种多层语义的网络词库的生成方法的流程示意图。

图3是本发明实施例3中一种多层语义的网络词库的生成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例1提供的一种多层语义的网络词库的生成方法的流程示意图，包括步骤：

S1、收集通用词库，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重；

S2、收集实体词库，分析所述实体词库中实体的关系，从而生成实体网络；

S3、收集领域预料，根据不同领域对所述领域预料进行训练生成完整的领域词库；

S4、根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。

具体实施时，先通过收集通用词库，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重；收集实体词库，分析所述实体词库中实体的关系，从而生成实体网络，再收集领域预料，根据不同领域对所述领域预料进行训练生成完整的领域词库，然后根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库，用于分词的词库不能对长文本进行准确的词条切分的问题，可以支撑基于自然语言处理的词条切分，并提供更丰富的扩展属性。

在一优选实施例中，在实施例1的基础上，如图2所示，还包括步骤：

S5、根据预设语言的语法对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库。

不同语言对应不同的模型参数，因此通过预设语言的语法，如英语、法语等对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库，可对对应语言的长文本进行准确的切分。

优选地，步骤S1中对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为：

条件随机场(conditional random field，CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。通过条件随机场可快速获得所述通用词库中每一个词和字的概率权重。

其中，所述人性化模型为进行词库训练时，将人的偏好程度作为所述通用词库中词的属性，通过上述步骤，可获得更准确、更符合用户体验的分词结果。

参见图3，是本发明实施例3提供的一种多层语义的网络词库的生成装置的结构示意图，包括：

通用词库生成模块101，用于收集通用词库，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重；

实体网络生成模块102，用于收集实体词库，分析所述实体词库中实体的关系，从而生成实体网络；

领域词库生成模块103，用于收集领域预料，根据不同领域对所述领域预料进行训练生成完整的领域词库；

网络词库生成模块104，用于根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。

具体实施时，通过通用词库生成模块先收集通用词库，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重，再通过实体网络生成模块收集实体词库，分析所述实体词库中实体的关系，从而生成实体网络，然后通过领域词库生成模块收集领域预料，根据不同领域对所述领域预料进行训练生成完整的领域词库，最后通过网络词库生成模块根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库，用于分词的词库不能对长文本进行准确的词条切分的问题，可以支撑基于自然语言处理的词条切分，并提供更丰富的扩展属性。

优选地，所述通用词库生成模块对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为：

优选地，所述多层语义的网络词库的生成装置100还包括：

综上，本发明实施例公开了一种多层语义的网络词库的生成方法及装置，通过收集通用词库，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重；收集实体词库，分析所述实体词库中实体的关系，从而生成实体网络，再收集领域预料，根据不同领域对所述领域预料进行训练生成完整的领域词库，然后根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库，用于分词的词库不能对长文本进行准确的词条切分的问题，可以支撑基于自然语言处理的词条切分，并提供更丰富的扩展属性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种多层语义的网络词库的生成方法，其特征在于，包括步骤：

2.如权利要求1所述的多层语义的网络词库的生成方法，其特征在于，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为：

3.如权利要求1所述的多层语义的网络词库的生成方法，其特征在于，还包括步骤：

4.如权利要求1所述的多层语义的网络词库的生成方法，其特征在于，对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为：

5.一种多层语义的网络词库的生成装置，其特征在于，包括：

6.如权利要求5所述的多层语义的网络词库的生成装置，其特征在于，所述通用词库生成模块对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为：

7.如权利要求5所述的多层语义的网络词库的生成装置，其特征在于，所述装置还包括：

8.如权利要求5所述的多层语义的网络词库的生成装置，其特征在于，所述通用词库生成模块对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为：