CN107451117A - 英文文本的分词方法及装置 - Google Patents

英文文本的分词方法及装置 Download PDF

Info

Publication number
CN107451117A
CN107451117A CN201710580373.4A CN201710580373A CN107451117A CN 107451117 A CN107451117 A CN 107451117A CN 201710580373 A CN201710580373 A CN 201710580373A CN 107451117 A CN107451117 A CN 107451117A
Authority
CN
China
Prior art keywords
text
segmented
training
standard
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710580373.4A
Other languages
English (en)
Inventor
晋彤
李永康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Special Road Mdt Infotech Ltd
Original Assignee
Guangzhou Special Road Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Special Road Mdt Infotech Ltd filed Critical Guangzhou Special Road Mdt Infotech Ltd
Priority to CN201710580373.4A priority Critical patent/CN107451117A/zh
Publication of CN107451117A publication Critical patent/CN107451117A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种英文文本的分词方法及装置,通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练,然后根据已完成训练的所述标准词库,对所述待分词文本进行时态和复数的还原处理获得标准词条,再接收待分词文本,对所述待分词文本进行特征提取,根据提取的特征识别所述待分词文本所属的领域,接着根据所述待分词文本所属的领域对所述标准词条进行分词处理,可以支撑基于自然语言处理的词条切分,能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎,能有效进行全文的场景识别然后切分词条,有利于后续文本的挖掘处理。

Description

英文文本的分词方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种英文文本的分词方法及装置。
背景技术
伴随着信息时代的到来,全球互联网和通讯事业发生了翻天覆地的变化,导致以电子形式存储和处理的数据***性增长,存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长文本数据,如文章、资讯等。
现有的分词方法中用于匹配的词库是二维的,最多只有词性和简单的概率权重。在算法模型上,并未识别长文本所述的领域,不能对得到准确的分词结果。另一方面,现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎。
发明内容
本发明实施例的目的是提供一种英文文本的分词方法及装置,能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎,能有效进行全文的场景识别然后切分词条,有利于后续文本的挖掘处理。
为实现上述目的,本发明实施例提供了一种英文文本的分词方法,包括步骤:
通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练;
根据已完成训练的所述标准词库,对所述待分词文本进行时态和复数的还原处理获得标准词条;
接收待分词文本,对所述待分词文本进行特征提取,根据提取的特征识别所述待分词文本所属的领域;
根据所述待分词文本所属的领域对所述标准词条进行分词处理。
与现有技术相比,本发明公开的英文文本的分词方法
作为上述方案的改进,还包括步骤:
通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述待分词文本进行歧义识别。该步骤能有效进行全文的场景识别然后切分词条,有利于后续文本的挖掘处理。
作为上述方案的改进,所述标准词库包括采集通用词库、实体词库和领域预料中的一种或多种内容。
作为上述方案的改进,通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。
作为上述方案的改进,通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。
本发明实施例还提供了一种英文文本的分词装置,包括:
训练模块,用于通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练;
标准词条获取模块,用于根据已完成训练的所述标准词库,对所述待分词文本进行时态和复数的还原处理获得标准词条;
特征提取模块,用于接收待分词文本,对所述待分词文本进行特征提取,根据提取的特征识别所述待分词文本所属的领域;
分词模块,用于根据所述待分词文本所属的领域对所述标准词条进行分词处理。
与现有技术相比,本发明实施例提供的英文文本的分词装置通过训练模块将大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练,然后通过标准词条获取模块根据已完成训练的所述标准词库,对所述待分词文本进行时态和复数的还原处理获得标准词条,再通过特征提取模块接收待分词文本,对所述待分词文本进行特征提取,根据提取的特征识别所述待分词文本所属的领域,接着通过分词模块根据所述待分词文本所属的领域对所述标准词条进行分词处理,可以支撑基于自然语言处理的词条切分,能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎,能有效进行全文的场景识别然后切分词条,有利于后续文本的挖掘处理。
作为上述方案的改进,所述分词装置还包括歧义识别模块,用于通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述待分词文本进行歧义识别。
作为上述方案的改进,所述标准词库包括采集通用词库、实体词库和领域预料中的一种或多种内容。
作为上述方案的改进,所述训练模块通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。
作为上述方案的改进,所述训练模块通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。
附图说明
图1是本发明实施例1提供的一种英文文本的分词方法的流程示意图。
图2是本发明实施例2提供的一种英文文本的分词方法的流程示意图。
图3是本发明实施例3提供的一种英文文本的分词装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种英文文本的分词方法的流程示意图,包括步骤:
S1、通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练;
优选地,所述标准词库包括采集通用词库、实体词库和领域预料中的一种或多种内容。
S2、根据已完成训练的所述标准词库,对所述待分词文本进行时态和复数的还原处理获得标准词条;
S3、接收待分词文本,对所述待分词文本进行特征提取,根据提取的特征识别所述待分词文本所属的领域;
S4、根据所述待分词文本所属的领域对所述标准词条进行分词处理。
具体实施时,通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练,然后根据已完成训练的所述标准词库,对所述待分词文本进行时态和复数的还原处理获得标准词条,再接收待分词文本,对所述待分词文本进行特征提取,根据提取的特征识别所述待分词文本所属的领域,接着根据所述待分词文本所属的领域对所述标准词条进行分词处理,可以支撑基于自然语言处理的词条切分,,能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎,能有效进行全文的场景识别然后切分词条,有利于后续文本的挖掘处理。
参见图2,是本发明实施例2提供的一种英文文本的分词方法的流程示意图,在实施例1的基础上,还包括步骤:
S5、通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述待分词文本进行歧义识别。
在该步骤中,进行歧义识别具体通过联系上下文进行,可以对同一段词汇的容易混淆的意思进行深度识别。CRF(Cond i t i ona l Random Fi e l d)条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。
优选地,通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。
优选地,通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。
通过上述方案,可以多种时态和语态的训练,从而得到更为准确的分词结果。
参见图3,是本发明实施例3提供的一种英文文本的分词装置的结构示意图,包括:
训练模块101,用于通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练;
标准词条获取模块102,用于根据已完成训练的所述标准词库,对所述待分词文本进行时态和复数的还原处理获得标准词条;
特征提取模块103,用于接收待分词文本,对所述待分词文本进行特征提取,根据提取的特征识别所述待分词文本所属的领域;
分词模块104,用于根据所述待分词文本所属的领域对所述标准词条进行分词处理。
具体实施时,通过训练模块101将大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练,然后通过标准词条获取模块102根据已完成训练的所述标准词库,对所述待分词文本进行时态和复数的还原处理获得标准词条,再通过特征提取模块103接收待分词文本,对所述待分词文本进行特征提取,根据提取的特征识别所述待分词文本所属的领域,接着通过分词模块104根据所述待分词文本所属的领域对所述标准词条进行分词处理,可以支撑基于自然语言处理的词条切分,,能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎,能有效进行全文的场景识别然后切分词条,有利于后续文本的挖掘处理。
优选地,所述英文文本的分词装置100还包括:
所述分词装置还包括歧义识别模块,用于通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述待分词文本进行歧义识别。
在一优选实施例中,所述标准词库包括采集通用词库、实体词库和领域预料中的一种或多种内容。
在一优选实施例中,所述训练模块通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。
在一优选实施例中,所述训练模块通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。
综上,本发明实施例提供了一种英文文本的分词方法及装置,通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练,然后根据已完成训练的所述标准词库,对所述待分词文本进行时态和复数的还原处理获得标准词条,再接收待分词文本,对所述待分词文本进行特征提取,根据提取的特征识别所述待分词文本所属的领域,接着根据所述待分词文本所属的领域对所述标准词条进行分词处理,可以支撑基于自然语言处理的词条切分,,能有效解决现有的分词方法缺少对外文时态、语态及复数等变形进行学习的引擎,能有效进行全文的场景识别然后切分词条,有利于后续文本的挖掘处理。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种英文文本的分词方法,其特征在于,包括步骤:
通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练;
根据已完成训练的所述标准词库,对所述待分词文本进行时态和复数的还原处理获得标准词条;
接收待分词文本,对所述待分词文本进行特征提取,根据提取的特征识别所述待分词文本所属的领域;
根据所述待分词文本所属的领域对所述标准词条进行分词处理。
2.如权利要求1所述的英文文本的分词方法,其特征在于,还包括步骤:
通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述待分词文本进行歧义识别。
3.如权利要求1所述的英文文本的分词方法,其特征在于,所述标准词库包括采集通用词库、实体词库和领域预料中的一种或多种内容。
4.如权利要求1所述的英文文本的分词方法,其特征在于,通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。
5.如权利要求1所述的英文文本的分词方法,其特征在于,通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。
6.一种英文文本的分词装置,其特征在于,包括:
训练模块,用于通过大量文章对标准词库中的预料进行若干时态、语态和复数形式的训练;
标准词条获取模块,用于根据已完成训练的所述标准词库,对所述待分词文本进行时态和复数的还原处理获得标准词条;
特征提取模块,用于接收待分词文本,对所述待分词文本进行特征提取,根据提取的特征识别所述待分词文本所属的领域;
分词模块,用于根据所述待分词文本所属的领域对所述标准词条进行分词处理。
7.如权利要求6所述的英文文本的分词装置,其特征在于,所述分词装置还包括歧义识别模块,用于通过CRF模型,识别所述待分词文本的场景,根据所述待分词文本的场景对所述待分词文本进行歧义识别。
8.如权利要求6所述的英文文本的分词装置,其特征在于,所述标准词库包括采集通用词库、实体词库和领域预料中的一种或多种内容。
9.如权利要求6所述的英文文本的分词装置,其特征在于,所述训练模块通过大量文章对标准词库中的预料进行若干时态的训练包括对所述标准词库中的预料进行现在时、过去式、进行时、完成时和将来时的训练。
10.如权利要求6所述的英文文本的分词装置,其特征在于,所述训练模块通过大量文章对标准词库中的预料进行语态的训练包括对所述标准词库中的预料进行主动语态和被动语态的训练。
CN201710580373.4A 2017-07-17 2017-07-17 英文文本的分词方法及装置 Pending CN107451117A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710580373.4A CN107451117A (zh) 2017-07-17 2017-07-17 英文文本的分词方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710580373.4A CN107451117A (zh) 2017-07-17 2017-07-17 英文文本的分词方法及装置

Publications (1)

Publication Number Publication Date
CN107451117A true CN107451117A (zh) 2017-12-08

Family

ID=60488892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710580373.4A Pending CN107451117A (zh) 2017-07-17 2017-07-17 英文文本的分词方法及装置

Country Status (1)

Country Link
CN (1) CN107451117A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法
CN105608075A (zh) * 2014-09-26 2016-05-25 北大方正集团有限公司 一种相关知识点的获取方法及***
CN106528540A (zh) * 2016-12-16 2017-03-22 广州索答信息科技有限公司 一种种子问句的分词方法和分词***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法
CN105608075A (zh) * 2014-09-26 2016-05-25 北大方正集团有限公司 一种相关知识点的获取方法及***
CN106528540A (zh) * 2016-12-16 2017-03-22 广州索答信息科技有限公司 一种种子问句的分词方法和分词***

Similar Documents

Publication Publication Date Title
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
US8811656B2 (en) Selecting representative images for establishments
CN107861947B (zh) 一种基于跨语言资源的柬语命名实体识别的方法
US20150293972A1 (en) Method and device used for providing input candidate items corresponding to an input character string
CN102135967A (zh) 网页关键词提取方法、装置及***
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN111488468B (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN107402916A (zh) 中文文本的分词方法及装置
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN109522417A (zh) 一种公司名的商号抽取方法
CN110866125A (zh) 基于bert算法模型的知识图谱构建***
CN103324621A (zh) 一种泰语文本拼写纠正方法及装置
EP4123496A2 (en) Method and apparatus for extracting text information, electronic device and storage medium
CN111221976A (zh) 基于bert算法模型的知识图谱构建方法
CN106815193A (zh) 模型训练方法及装置和错别字识别方法及装置
CN113076748A (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN113887202A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN112307314A (zh) 搜索引擎精选摘要的生成方法和装置
CN109344233A (zh) 一种中文人名识别方法
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及***
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN107480128A (zh) 中文文本的分词方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171208