CN107491440B - 自然语言分词构造方法及***、自然语言分类方法及*** - Google Patents
自然语言分词构造方法及***、自然语言分类方法及*** Download PDFInfo
- Publication number
- CN107491440B CN107491440B CN201710852703.0A CN201710852703A CN107491440B CN 107491440 B CN107491440 B CN 107491440B CN 201710852703 A CN201710852703 A CN 201710852703A CN 107491440 B CN107491440 B CN 107491440B
- Authority
- CN
- China
- Prior art keywords
- participles
- natural language
- ngram
- combined
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种自然语言分词构造方法,该方法包括:获取自然语言的Ngram分词,将Ngram分词按照位置序列顺序进行非连续组合,得到组合分词。可见,在原有的Ngram分词基础之上,再将得到的Ngram分词按照位置序列顺序进行组合,通过这样的方法加大了自然语言的表达能力,进而提高自然语言的分类准确率。并且,在本方案中,进一步的对组合分词设置窗口大小,以避免产生过多的组合分词特征量,提高了对自然语言的分类速度。相应的,本发明还公开了一种自然语言分词构造***、一种自然语言分类方法及***,同样具有上述有益效果。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及自然语言分词构造方法及***、自然语言分类方法及***。
背景技术
随着科学技术的发展,互联网已经成为人们获取知识的重要手段,其中,信息检索、文本分类和人机对话等技术已经深入人们生活的各个方面,人们都要或多或少地使用自然语言处理(Natural Language Processing,NLP)的研究成果来获取或挖掘在互联网上的各种知识和信息,因此,自然语言处理成为本世纪最热门的学科之一。
在自然语言处理当中,词是最小的能够独立活动的有意义的语言成分,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,所以导致了自然语言文本当中存在各种各样的歧义性或者是多义性。因此,对于自然语言的特征提取就成为人机交互的基础与关键。在现有的开源分词工具当中,往往是依靠于开源分词工具的正确率,并且需要对自然语言中的专有名词进行额外的处理,显然该方法过于繁琐。目前Ngram是最为有用的自然语言分类工具,在常用的NLP语料库中,人们可以利用Ngram来预计或者去评估一个句子是否合理。虽然Ngram分词能够解决专有名词的问题,但是它仍然会丢失一些句子的组合信息,所以怎样提高自然语言的分类准确率是本技术领域人员亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种自然语言分词构造方法,其目的在于提高自然语言的分类准确率。其具体方案如下:
一种自然语言分词构造方法,包括:
获取自然语言的Ngram分词;
将所述Ngram分词按照位置序列顺序和窗口进行组合,得到组合分词,其中,每一Ngram分词与在后的每m个Ngram分词分别进行组合,且每一组合分词中两相邻Ngram分词在原位置序列顺序中所间隔的Ngram分词个数小于所述窗口,所述窗口大小为n,n≥2。
优选的,所述将所述Ngram分词按照位置序列顺序和窗口进行组合的过程,包括:
将所述Ngram分词按照位置序列顺序和窗口进行二组合。
优选的,所述将所述Ngram分词按照位置序列顺序和窗口进行组合的过程,包括:
将所述Ngram分词按照位置序列顺序和窗口进行三组合。
相应的,本发明还公开了一种自然语言分类方法,包括:
获取自然语言的样本;
利用如前述的分词构造方法提取所述样本的组合分词;
利用所述组合分词对所述样本进行分类。
优选的,所述利用所述组合分词对所述样本进行分类的过程,包括:
将所述组合分词输入至训练后模型中对所述样本进行分类;
其中,所述训练后模型为利用训练样本对基于逻辑回归算法构建的待训练模型进行训练后得到的模型,所述训练样本包括组合分词以及相应的分类信息。
相应的,本发明还公开了一种自然语言分词构造***,包括:
分词获取模块,用于获取自然语言的Ngram分词;
分词组合模块,用于将所述Ngram分词按照位置序列顺序和窗口进行组合,得到组合分词,其中,每一Ngram分词与在后的每m个Ngram分词分别进行组合,且每一组合分词中两相邻Ngram分词在原位置序列顺序中所间隔的Ngram分词个数小于所述窗口,所述窗口大小为n,n≥2。
相应的,本发明还公开了一种自然语言分类***,包括:
样本获取模块,用于获取自然语言的样本;
样本组合模块,用于利用前述公开的分词构造***提取所述样本的组合分词;
样本分类模块,用于利用所述组合分词对所述样本进行分类。
在本发明中,一种自然语言分词构造方法,包括:获取自然语言的Ngram分词,将Ngram分词按照位置序列顺序进行非连续组合,得到组合分词。可见,在原有的Ngram分词基础之上,再将得到的Ngram分词按照位置序列顺序进行组合,通过这样的方法加大了自然语言的表达能力,进而提高自然语言的分类准确率。并且,在本方案中,进一步的对组合分词设置窗口大小,以避免产生过多的组合分词特征量,提高了对自然语言的分类速度。此外,本发明提供的一种自然语言分词构造***、自然语言分类方法及***同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一所提供的一种自然语言分词构造方法流程图;
图2为本发明实施例二所提供的一种自然语言分词构造方法流程图;
图3为本发明实施例三所提供的一种自然语言分类方法流程图;
图4为本发明实施例四所提供的一种自然语言分词构造***结构图;
图5为本发明实施例五所提供的一种自然语言分类***结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例一公开了一种自然语言分词构造方法,如图1所示,该方法包括:
步骤S11:获取自然语言的Ngram分词;
步骤S12:将Ngram分词按照位置序列顺序进行非连续组合,得到组合分词。
在本实施例中,首先是通过Ngram算法得到自然语言样本的Ngram分词,在此基础上再将Ngram分词按照位置序列顺序进行非连续组合,得到组合分词。通过这样的方法加大了自然语言的表达能力,进而提高自然语言的分类准确率。
需要说明的是,在本实施例中,将Ngram分词按照位置序列顺序进行非连续组合,可以是两个分词的组合,也可以是三个分词的组合,一切以达到实际应用为目的,此处不作限定。可以理解的是,为了得到更好的组合分词还可以对组合分词设置窗口大小(单词跨越宽度)以避免产生过多的组合分词特征量,进而提高对自然语言的分类速度。
可见,在原有的Ngram分词基础之上,再将得到的Ngram分词按照位置序列顺序进行组合,通过这样的方法加大了自然语言的表达能力,进而提高自然语言的分类准确率。并且,在本方案中,进一步的对组合分词设置窗口大小,以避免产生过多的组合分词特征量,提高了对自然语言的分类速度。
本发明实施例二公开了一种具体的自然语言分词构造方法,参见图2,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的该方法包括:
步骤S21:获取自然语言的Ngram分词;
步骤S22:将Ngram分词按照位置序列顺序并设置窗口进行非连续组合,得到组合分词。
具体的,步骤S22中将Ngram分词按照位置序列顺序并设置窗口进行非连续组合的过程,包括步骤H221;
步骤H221:将序列分词样本按照位置序列排列顺序进行非连续二组合。
在本实施例中,可以将序列分词样本按照位置序列排列顺序进行非连续二组合。例如:自然语言样本“我有点想回家”,使用1gram后,分词结果为“我”、“有”、“点”、“想”、“回”、“家”,按照位置序列排列顺序进行非连续二组合后,得到的组合分词结果为“我有”、“我点”、“我想”、“我回”、“我家”、“有点”、“有想”、“有回”、“有家”、“点想”、“点回”、“点家”“想回”、“想家”、“回家”。这样就包括了既有前一个分词,又有后面分词的语句特征,加大了语句的表达能力,进而提高自然语言的分类准确率。
具体的,步骤S22中将Ngram分词按照位置序列顺序并设置窗口进行非连续组合的过程,包括步骤H222;
步骤H222:将序列分词样本按照位置序列排列顺序进行非连续三组合。
在本实施例中,可以将序列分词样本按照位置序列排列顺序进行非连续三组合。例如:自然语言样本“我有点想回家”,使用1gram后,按照位置序列排列顺序进行非连续三组合后,得到的组合分词结果为“我有点”、“我有想”、“我有回”、“我有家”、“我点想”、“我点回”、“我点家”、“我想回”、“我想家”、“有点想”、“有点回”、“有点家”“点想回”、“点想家”、“想回家”。可见这样就包括了既有前一个分词,又有后面分词的语句特征,加大了语句的表达能力,进而提高自然语言的分类准确率。
具体的,步骤S22中将Ngram分词按照位置序列顺序并设置窗口进行非连续组合的过程,还包括步骤S221;
步骤S221:将Ngram分词按照位置序列顺序并设置窗口进行非连续组合。
在本实施例中,将序列分词样本按照位置序列顺序并设置窗口进行非连续组合,可以减少由本实施例公开的方法所产生的组合分词的数量,进而减少自然语言样本产生的特征量,避免由于产生特征量过多,而影响数据分类速度。
具体的,本实施例中的窗口大小为n,其中,n≥2。
可以理解的是,如果将窗口大小n设置为2时,则去掉了“我想”、“我回”、“我家”、“有回”、“有家”和“点家”的组合分词。从而避免产生过多的组合分词,影响数据的分类速度。当然,在本实施例中,是列举了窗口大小为2的情况,窗口大小的设置情况,可参见此方法,在此不再赘述。
相应的,本发明实施例三还公开了一种自然语言分类方法,参见图3,该方法包括:
步骤S31:获取自然语言的样本;
需要说明的是,在本实施例中对获取自然语言的样本可以是NLP语料库,也可以是其他的自然语言语料库,此处不作限定。
步骤S32:利用前述公开的分词构造方法提取样本的组合分词;
在本实施例中,将获取到的自然语言样本进行Ngram分词,然后将得到的Ngram分词按照位置序列顺序进行非连续组合,得到组合分词。
步骤S33:对组合分词进行分类。
在本实施例中,利用分类算法对组合分词进行分类,需要说明的是,分类算法包括但不限于逻辑回归算法、SVM算法,一切以达到实际应用为目的,此处不作限定。
具体的,步骤S33中对组合分词进行分类的过程,包括:
利用逻辑回归算法对组合分词进行分类。
在本实施例中,利用本实施例公开的技术方案,在NLP意图识别中作分类识别,在本实施例中共有41705条人工标注语料,83个分类,测试集有5118条人工标注语料,首先对人工标注语料进行1gram分词,然后将1gram分词按照序列排列顺序进行非连续二组合,并将组合分词的窗口设置为8,利用liblinear逻辑回归作为分类器,使用3交叉验证,每次验证验证集时,同时测试测试集,重复5次取正确率。实验结果显示,通过本技术方案,相比于直接对人工标注语料进行1gram+2gram的方法,准确率提升2%。
本发明实施例四公开了一种具体的自然语言分词构造***,参见图4,该***包括:
分词获取模块41,用于获取自然语言的Ngram分词;
分词组合模块42,用于将Ngram分词按照位置序列顺序进行非连续组合,得到组合分词。
优选的,分词处理模块42,包括:
第一分词组合单元,用于将序列分词样本按照位置序列排列顺序进行非连续二组合。
优选的,分词处理模块42,包括:
第二分词组合单元,用于将序列分词样本按照位置序列排列顺序进行非连续三组合。
优选的,分词组合模块42,还包括:
分词设置单元,用于将序列分词样本按照位置序列顺序并设置窗口进行非连续组合。
本发明实施例五公开了一种具体的自然语言分类***,参见图5,该***包括:
样本获取模块51,用于获取自然语言的样本;
样本处理模块52,用于利用前述公开的分词构造***提取所述样本的组合分词;
样本分类模块53,用于对所述组合分词进行分类。
优选的,样本分类模块53,包括:
样本分类单元,用于利用逻辑回归算法对组合分词进行分类。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的自然语言分词构造方法及***进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种自然语言分词构造方法,其特征在于,包括:
获取自然语言的Ngram分词;
将所述Ngram分词按照位置序列顺序和窗口进行组合,得到组合分词,其中,每一Ngram分词与在后的每m个Ngram分词分别进行组合,且每一组合分词中两相邻Ngram分词在原位置序列顺序中所间隔的Ngram分词个数小于所述窗口,所述窗口大小为n,n≥2。
2.根据权利要求1所述的方法,其特征在于,所述将所述Ngram分词按照位置序列顺序和窗口进行组合的过程,包括:
将所述Ngram分词按照位置序列顺序和窗口进行二组合。
3.根据权利要求1所述的方法,其特征在于,所述将所述Ngram分词按照位置序列顺序和窗口进行组合的过程,包括:
将所述Ngram分词按照位置序列顺序和窗口进行三组合。
4.一种自然语言分类方法,其特征在于,包括:
获取自然语言的样本;
利用如权利要求1至3任一项所述的分词构造方法提取所述样本的组合分词;
利用所述组合分词对所述样本进行分类。
5.根据权利要求4所述的方法,其特征在于,所述利用所述组合分词对所述样本进行分类的过程,包括:
将所述组合分词输入至训练后模型中对所述样本进行分类;
其中,所述训练后模型为利用训练样本对基于逻辑回归算法构建的待训练模型进行训练后得到的模型,所述训练样本包括组合分词以及相应的分类信息。
6.一种自然语言分词构造***,其特征在于,包括:
分词获取模块,用于获取自然语言的Ngram分词;
分词组合模块,用于将所述Ngram分词按照位置序列顺序和窗口进行组合,得到组合分词,其中,每一Ngram分词与在后的每m个Ngram分词分别进行组合,且每一组合分词中两相邻Ngram分词在原位置序列顺序中所间隔的Ngram分词个数小于所述窗口,所述窗口大小为n,n≥2。
7.一种自然语言分类***,其特征在于,包括:
样本获取模块,用于获取自然语言的样本;
样本组合模块,用于利用如权利要求6所述的分词构造***提取所述样本的组合分词;
样本分类模块,用于利用所述组合分词对所述样本进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710852703.0A CN107491440B (zh) | 2017-09-19 | 2017-09-19 | 自然语言分词构造方法及***、自然语言分类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710852703.0A CN107491440B (zh) | 2017-09-19 | 2017-09-19 | 自然语言分词构造方法及***、自然语言分类方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107491440A CN107491440A (zh) | 2017-12-19 |
CN107491440B true CN107491440B (zh) | 2021-07-16 |
Family
ID=60653172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710852703.0A Active CN107491440B (zh) | 2017-09-19 | 2017-09-19 | 自然语言分词构造方法及***、自然语言分类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107491440B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680119B (zh) * | 2019-03-11 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 数据处理方法及计算设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102654866A (zh) * | 2011-03-02 | 2012-09-05 | 北京百度网讯科技有限公司 | 例句索引创建方法和装置以及例句检索方法和装置 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及*** |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527262B2 (en) * | 2007-06-22 | 2013-09-03 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
CN103870537B (zh) * | 2013-12-03 | 2017-02-01 | 山东金质信息技术有限公司 | 一种标准检索智能分词方法 |
CN105808615A (zh) * | 2014-12-31 | 2016-07-27 | 北京奇虎科技有限公司 | 一种基于分词权重的文档索引生成方法和装置 |
-
2017
- 2017-09-19 CN CN201710852703.0A patent/CN107491440B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102654866A (zh) * | 2011-03-02 | 2012-09-05 | 北京百度网讯科技有限公司 | 例句索引创建方法和装置以及例句检索方法和装置 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及*** |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107491440A (zh) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和*** | |
CN106650943B (zh) | 基于人工智能的辅助写作方法和装置 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
US7627562B2 (en) | Obfuscating document stylometry | |
CN108875059B (zh) | 用于生成文档标签的方法、装置、电子设备和存储介质 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
Soliman et al. | Sentiment analysis of Arabic slang comments on facebook | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN104572958A (zh) | 一种基于事件抽取的敏感信息监控方法 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN104598535A (zh) | 一种基于最大熵的事件抽取方法 | |
CN103744953A (zh) | 一种基于中文文本情感识别的网络热点挖掘方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
CN106933800A (zh) | 一种金融领域的事件句抽取方法 | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN104573030A (zh) | 一种文本情绪预测方法及装置 | |
CN107220293A (zh) | 基于情绪的文本分类方法 | |
CN107451116B (zh) | 一种移动应用内生大数据统计分析方法 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及*** | |
CN107491440B (zh) | 自然语言分词构造方法及***、自然语言分类方法及*** | |
Munot et al. | Conceptual framework for abstractive text summarization | |
CN115329754A (zh) | 一种文本主题提取方法、装置、设备及存储介质 | |
CN107622122A (zh) | 一种专利关键词自动提取方法 | |
KR101705804B1 (ko) | 시맨틱 콘텐츠 분류 장치 및 이를 이용한 콘텐츠 분류 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |