CN107402915A - 多层语义的网络词库的生成方法及装置 - Google Patents

多层语义的网络词库的生成方法及装置 Download PDF

Info

Publication number
CN107402915A
CN107402915A CN201710580677.0A CN201710580677A CN107402915A CN 107402915 A CN107402915 A CN 107402915A CN 201710580677 A CN201710580677 A CN 201710580677A CN 107402915 A CN107402915 A CN 107402915A
Authority
CN
China
Prior art keywords
word
dictionary
general dictionary
multilayer
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710580677.0A
Other languages
English (en)
Inventor
晋彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Special Road Mdt Infotech Ltd
Original Assignee
Guangzhou Special Road Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Special Road Mdt Infotech Ltd filed Critical Guangzhou Special Road Mdt Infotech Ltd
Priority to CN201710580677.0A priority Critical patent/CN107402915A/zh
Publication of CN107402915A publication Critical patent/CN107402915A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种多层语义的网络词库的生成方法及装置,通过收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络,再收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库,然后根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库,用于分词的词库不能对长文本进行准确的词条切分的问题,可以支撑基于自然语言处理的词条切分,并提供更丰富的扩展属性。

Description

多层语义的网络词库的生成方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种多层语义的网络词库的生成方法及装置。
背景技术
伴随着信息时代的到来,全球互联网和通讯事业发生了翻天覆地的变化,导致以电子形式存储和处理的数据***性增长,存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长文本数据,如文章、资讯等。
现有的分词方法中用于匹配的词库是二维的,最多只有词性和简单的概率权重,不能对长文本进行准确的词条切分。
发明内容
本发明实施例的目的是提供一种多层语义的网络词库的生成方法及装置,能有效解决现有的用于分词的词库不能对长文本进行准确的词条切分的问题,可以提供更丰富的扩展属性。
为实现上述目的,本发明实施例提供了一种多层语义的网络词库的生成方法,包括步骤:
收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;
收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络;
收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库;
根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。
与现有技术相比,本发明公开的多层语义的网络词库的生成方法通过收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络,再收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库,然后根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库,用于分词的词库不能对长文本进行准确的词条切分的问题,可以支撑基于自然语言处理的词条切分,并提供更丰富的扩展属性。
作为上述方案的改进,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过人性化模型对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
作为上述方案的改进,还包括步骤:
根据预设语言的语法对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库。
作为上述方案的改进,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过条件随机场对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
本发明实施例还提供了一种多层语义的网络词库的生成装置,包括:
通用词库生成模块,用于收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;
实体网络生成模块,用于收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络;
领域词库生成模块,用于收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库;
网络词库生成模块,用于根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。
与现有技术相比,本发明公开的多层语义的网络词库的生成装置通过通用词库生成模块先收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重,再通过实体网络生成模块收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络,然后通过领域词库生成模块收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库,最后通过网络词库生成模块根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库,用于分词的词库不能对长文本进行准确的词条切分的问题,可以支撑基于自然语言处理的词条切分,并提供更丰富的扩展属性。
作为上述方案的改进,所述通用词库生成模块对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过人性化模型对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
作为上述方案的改进,所述装置还包括:
网络词库完善模块,用于根据预设语言的语法对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库。
作为上述方案的改进,所述通用词库生成模块对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过条件随机场对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
附图说明
图1是本发明实施例1中一种多层语义的网络词库的生成方法的流程示意图。
图2是本发明实施例2中一种多层语义的网络词库的生成方法的流程示意图。
图3是本发明实施例3中一种多层语义的网络词库的生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种多层语义的网络词库的生成方法的流程示意图,包括步骤:
S1、收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;
S2、收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络;
S3、收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库;
S4、根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。
具体实施时,先通过收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络,再收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库,然后根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库,用于分词的词库不能对长文本进行准确的词条切分的问题,可以支撑基于自然语言处理的词条切分,并提供更丰富的扩展属性。
在一优选实施例中,在实施例1的基础上,如图2所示,还包括步骤:
S5、根据预设语言的语法对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库。
不同语言对应不同的模型参数,因此通过预设语言的语法,如英语、法语等对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库,可对对应语言的长文本进行准确的切分。
优选地,步骤S1中对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过条件随机场对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
条件随机场(conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。通过条件随机场可快速获得所述通用词库中每一个词和字的概率权重。
优选地,步骤S1中对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过人性化模型对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
其中,所述人性化模型为进行词库训练时,将人的偏好程度作为所述通用词库中词的属性,通过上述步骤,可获得更准确、更符合用户体验的分词结果。
参见图3,是本发明实施例3提供的一种多层语义的网络词库的生成装置的结构示意图,包括:
通用词库生成模块101,用于收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;
实体网络生成模块102,用于收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络;
领域词库生成模块103,用于收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库;
网络词库生成模块104,用于根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。
具体实施时,通过通用词库生成模块先收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重,再通过实体网络生成模块收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络,然后通过领域词库生成模块收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库,最后通过网络词库生成模块根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库,用于分词的词库不能对长文本进行准确的词条切分的问题,可以支撑基于自然语言处理的词条切分,并提供更丰富的扩展属性。
优选地,所述通用词库生成模块对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过人性化模型对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
优选地,所述多层语义的网络词库的生成装置100还包括:
网络词库完善模块,用于根据预设语言的语法对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库。
优选地,所述通用词库生成模块对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过条件随机场对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
综上,本发明实施例公开了一种多层语义的网络词库的生成方法及装置,通过收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络,再收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库,然后根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库,用于分词的词库不能对长文本进行准确的词条切分的问题,可以支撑基于自然语言处理的词条切分,并提供更丰富的扩展属性。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (8)

1.一种多层语义的网络词库的生成方法,其特征在于,包括步骤:
收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;
收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络;
收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库;
根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。
2.如权利要求1所述的多层语义的网络词库的生成方法,其特征在于,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过人性化模型对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
3.如权利要求1所述的多层语义的网络词库的生成方法,其特征在于,还包括步骤:
根据预设语言的语法对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库。
4.如权利要求1所述的多层语义的网络词库的生成方法,其特征在于,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过条件随机场对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
5.一种多层语义的网络词库的生成装置,其特征在于,包括:
通用词库生成模块,用于收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;
实体网络生成模块,用于收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络;
领域词库生成模块,用于收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库;
网络词库生成模块,用于根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。
6.如权利要求5所述的多层语义的网络词库的生成装置,其特征在于,所述通用词库生成模块对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过人性化模型对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
7.如权利要求5所述的多层语义的网络词库的生成装置,其特征在于,所述装置还包括:
网络词库完善模块,用于根据预设语言的语法对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库。
8.如权利要求5所述的多层语义的网络词库的生成装置,其特征在于,所述通用词库生成模块对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:
通过条件随机场对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。
CN201710580677.0A 2017-07-17 2017-07-17 多层语义的网络词库的生成方法及装置 Pending CN107402915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710580677.0A CN107402915A (zh) 2017-07-17 2017-07-17 多层语义的网络词库的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710580677.0A CN107402915A (zh) 2017-07-17 2017-07-17 多层语义的网络词库的生成方法及装置

Publications (1)

Publication Number Publication Date
CN107402915A true CN107402915A (zh) 2017-11-28

Family

ID=60400997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710580677.0A Pending CN107402915A (zh) 2017-07-17 2017-07-17 多层语义的网络词库的生成方法及装置

Country Status (1)

Country Link
CN (1) CN107402915A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260965A (zh) * 2020-01-17 2020-06-09 宇龙计算机通信科技(深圳)有限公司 词库生成方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030061570A1 (en) * 2001-09-25 2003-03-27 International Business Machines Corporation Method, system and program for associating a resource to be translated with a domain dictionary
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
US20140293301A1 (en) * 2013-03-26 2014-10-02 Seiko Epson Corporation Print control apparatus and print control program
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030061570A1 (en) * 2001-09-25 2003-03-27 International Business Machines Corporation Method, system and program for associating a resource to be translated with a domain dictionary
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
US20140293301A1 (en) * 2013-03-26 2014-10-02 Seiko Epson Corporation Print control apparatus and print control program
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘芳芳 等: "一种引入动态词库更新的中文分词架构", 《计算机***应用》 *
尹宝生: "《译文质量自动评测技术》", 31 July 2016, 辽宁科学技术出版社 *
沈旭辉 等: "《WPS2000快速精通》", 30 June 1999, 四川科学技术出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260965A (zh) * 2020-01-17 2020-06-09 宇龙计算机通信科技(深圳)有限公司 词库生成方法及相关装置

Similar Documents

Publication Publication Date Title
CN106570148B (zh) 一种基于卷积神经网络的属性抽取方法
CN106951438A (zh) 一种面向开放域的事件抽取***及方法
CN104679738B (zh) 互联网热词挖掘方法及装置
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN103678310B (zh) 网页主题的分类方法及装置
CN101887443B (zh) 一种文本的分类方法及装置
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN103246732B (zh) 一种在线Web新闻内容的抽取方法及***
CN103473217B (zh) 从文本中抽取关键词的方法和装置
CN105389389B (zh) 一种网络舆情传播态势媒体联动分析方法
CN104573046A (zh) 一种基于词向量的评论分析方法及***
CN105608200A (zh) 一种网络舆论趋势预测分析方法
CN103631859A (zh) 一种面向科技项目的评审专家智能推荐方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN102110140A (zh) 基于网络离散文本的舆情信息分析方法
CN103699626A (zh) 一种微博用户个性化情感倾向分析方法及***
CN103268350A (zh) 一种互联网舆情信息监测***及监测方法
CN106033462A (zh) 一种新词发现方法及***
CN103870001A (zh) 一种生成输入法候选项的方法及电子装置
CN102411564A (zh) 一种电子作业抄袭检测方法
CN106126502A (zh) 一种基于支持向量机的情感分类***及方法
CN103593431A (zh) 网络舆情分析方法和装置
CN102081602A (zh) 确定未登录词的类别的方法和设备
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171128