CN108334610A

CN108334610A - 一种新闻文本分类方法、装置及服务器

Info

Publication number: CN108334610A
Application number: CN201810116106.6A
Authority: CN
Inventors: 任宁; 晋耀红
Original assignee: Beijing Shenzhou Taiyue Software Co Ltd
Current assignee: China Science and Technology (Beijing) Co., Ltd.
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-07-27

Abstract

本申请实施例提供了一种新闻文本分类方法、装置及服务器，首先，根据已知新闻语料创建分类词表；然后，根据分类词表对新闻文本进行分类，获得新闻文本的命中类别；然后，对新闻文本进行分词，并获取每个新闻文本的分词与命中类别的相关度；最后，根据相关度，从新闻文本的分词中选拔特征词，并将选拔出的特征词添加到分类词表中。随着新闻文本分类的进行，本申请实现了在新闻文本的分类过程中持续地更新分类词表，使分类词表在使用过程中能够不断积累和完善特征词，及时跟随新闻文本的内容变化趋势，保持并不断提高分类词表对新出现的新闻文本的分类能力，从而，提高了新闻文本分类的准确性。

Description

一种新闻文本分类方法、装置及服务器

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种新闻文本分类方法、装置及服务器。

背景技术

在自然语言处理技术领域，文本数据的处理包括文本分类、文本组织和文本管理等类型，其中，文本分类是指在给定的分类体系下，根据文本内容自动确定文本类别的过程。

随着移动互联网技术的发展，互联网中的信息来源越来越广泛，互联网信息的数量迅速增加。在新闻传媒领域，随着流量媒体和互联网自媒体的迅速繁荣，新闻的来源变得更加多元，生成速度大大加快，如何有效地从互联网中收集新闻，并对收集到的新闻进行分类已经成为新闻媒体所面临的重要挑战。因此，对新闻文本进行分类就成为了文本分类的一个重要应用方向。

现有技术中对新闻文本进行分类多采用基于统计学算法的文本分类方法。图1为现有技术的一种新闻文本分类方法的示意图，使用基于统计学算法的文本分类方法进行文本分类时，首先，要对大量的已知类别的新闻文本进行标注；然后，以标注后的新闻文本作为训练语料，训练文本分类器，使文本分类器具备对未知文本的分类能力。在现有技术的基于统计学算法的文本分类方法，文本分类的准确度取决于训练语料的数量和质量，因此，为了提高文本分类的准确率，必须使用大量的训练语料对文本分类器进行训练，而语料标注的过程是通过人工实现的，难以满足获得大量训练需要的要求，导致准确利率不理想。

此外，由于新闻具有热点性强、时效性强、更迭速度块、过期速度快的特点，新闻文本往往在积累语料的过程中就已经过期，无法反映当前的新闻热点；因此，基于统计学算法的文本分类方法由于训练语料在积累过程中存在时效上的滞后，而缺乏对新出现的新闻文本的分类能力，从而在实际应用中存在着对新闻文本分类的准确率偏低的问题。

因此，如何提高对新闻文本分类的准确性，成为本领域技术人员亟待解决的技术问题。

发明内容

本申请实施例提供了一种新闻文本分类方法、装置及服务器，以解决现有技术中存在的问题。

第一方面，本申请实施例提供了一种新闻文本分类方法，所述方法包括：

S110，根据已知新闻语料创建分类词表；所述分类词表设置有多个新闻类别，每个新闻类别中包含至少一个特征词；

S120，根据所述分类词表对新闻文本进行分类，获得新闻文本的命中类别；

S130，对新闻文本进行分词，并获取每个新闻文本的分词与所述命中类别的相关度；

S140，根据所述相关度，从新闻文本的分词中选拔所述特征词，并将选拔出的所述特征词添加到所述分类词表中；

S150，重复执行步骤S120-S140，直到所述分类词表对新闻文本分类的准确率满足预设终止条件为止。

第二方面，本申请实施例还提供了一种新闻文本分类装置，所述装置包括：

创建单元，用于根据已知新闻语料创建分类词表；所述分类词表设置有多个新闻类别，每个新闻类别中包含至少一个特征词；

分类单元，用于根据所述分类词表对新闻文本进行分类，获得新闻文本的命中类别；

计算单元，用于对新闻文本进行分词，并获取每个新闻文本的分词与所述命中类别的相关度；

选词单元，用于根据所述相关度，从新闻文本的分词中选拔所述特征词，并将选拔出的所述特征词添加到所述分类词表中。

第三方面，本申请实施例还提供了一种服务器，所述服务器包括：

处理器和存储器；

所述存储器用于存储分类词表和所述处理器可执行的程序；

所述处理器被配置为执行以下步骤程序：

由以上技术方案可知，本申请实施例提供了一种新闻文本分类方法、装置及服务器，首先，根据已知新闻语料创建分类词表；然后，根据分类词表对新闻文本进行分类，获得新闻文本的命中类别；然后，对新闻文本进行分词，并获取每个新闻文本的分词与命中类别的相关度；最后，根据相关度，从新闻文本的分词中选拔特征词，并将选拔出的特征词添加到分类词表中。随着新闻文本分类的进行，本申请实现了在新闻文本的分类过程中持续地更新分类词表，使分类词表在使用过程中能够不断积累和完善特征词，及时跟随新闻文本的内容变化趋势，保持并不断提高分类词表对新出现的新闻文本的分类能力，从而，提高了新闻文本分类的准确性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术的一种新闻文本分类方法的示意图；

图2为本申请实施例提供的一种新闻文本分类方法的流程图；

图3为本申请实施例提供的一种新闻文本分类方法步骤S110的流程图；

图4为本申请实施例提供的一种分类词表的分类体系示意图；

图5为本申请实施例提供的另一种新闻文本分类方法步骤S110的流程图；

图6为本申请实施例提供的一种新闻文本分类方法步骤S120的流程图；

图7为本申请实施例提供的一种新闻文本分类方法步骤S122的流程图；

图8为本申请实施例提供的一种新闻文本分类方法步骤S130的流程图；

图9为本申请实施例提供的一种新闻文本分类方法步骤S140的流程图；

图10为本申请实施例提供的一种新闻文本分类装置的结构框图；

图11为本申请实施例提供的一种服务器的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

实施例一

本申请实施例提供了一种新闻文本分类方法，图2为本申请实施例提供的一种新闻文本分类方法的流程图，如图2所示，本申请实施例提供的一种新闻文本分类方法包括以下步骤：

步骤S110，根据已知新闻语料创建分类词表；所述分类词表设置有多个新闻类别，每个新闻类别中包含至少一个特征词。

分类词表用于对未知类别的新闻文本进行分类。分类词表中每个新闻类别包含的特征词源于对应新闻类别的已知新闻语料。特征词在新闻文本分类中的作用为：当未知类别的新闻本中出现了特征词时，表示该未知类别的新闻文本具有属于该特征词所在新闻类别的倾向，特征词出现的数量越多、次数越多，这个倾向就越强。

图3为本申请实施例提供的一种新闻文本分类方法步骤S110的流程图，在一种可选择的实施方式中，步骤S110可以包括以下步骤：

步骤S111，设置所述分类词表的新闻类别。

基于少量的已知新闻语料，创建分类词表，根据已知新闻语料的新闻类别，设置分类词表包含的新闻类别，形成分类词表的分类体系。

本申请的已知新闻语料可以有多个来源，以覆盖不同的领域和不同的新闻侧重点，从而提高本申请创建的分类词表中新闻类别的全面性，例如，本申请从多个新闻网站中获取新闻语料。在创建分类词表时，可参考多个新闻网站对新闻的分类方式设置分类词表包含的新闻类别，例如：根据多个新闻网站普遍的分类方式，可以在本申请的分类词表中设置时政、国际、军事、财经、社会、教育、文化、娱乐等新闻类别。

在新闻文本分类的实际应用需求中，有时需要对新闻类别进行细分，对此，本申请的分类词表中，可对新闻类别设置多个层级，以体现新闻类别之间的从属关系。例如：以“时政”作为父级类别，在“时政”类别下可设置“高层动态”“***”“反腐倡廉”“党建”“时评”等子类别。

此外，本申请在参考多个新闻网站对新闻的分类方式设置分类词表的新闻类别的同时，还可以根据实际需要增加临时类别。增加临时类别的意义是：随着时间的变化，新闻热点呈现出此消彼长的爆发和更替的态势，而新闻媒体为了及时掌握新闻热点的发展态势，需要从海量的新闻文本中及时搜集最新的新闻热点，为了满足这种需求，本申请可根据新闻热点的变化设置临时类别。

例如：每当春节到来时，有关春节的新闻话题就会爆发，成为新闻热点，此时，新闻媒体为了收集有关春节的新闻话题和线索，会出现对春节相关新闻进行单独分类的需求，为了满足这种需求，本申请的分类词表中可设置有关春节的临时类别，例如：设置一个父级类别“春节”，然后在“春节”类别下设置“春运”“年俗”“春晚”“返乡”等多个子类别。当春节过后，有关春节的新闻热点消退，此时，可从分类词表中删除有关春节的临时类别，从减少新闻文本分类时的数据计算量，提高分类效率。

示例地，图4为本申请实施例提供的一种分类词表的分类体系示意图。

步骤S112，从已知新闻语料中获取所述特征词。

特征词能够体现出新闻文本的分类倾向。例如：当某篇新闻文本中出现“重要讲话”“国事访问”“考察调研”“全国人大”“国务院”等特征词时，说明该新闻文本的类别可能是“时政”类。当某篇新闻文本中出现“涨停”“股票”“资产重组”等特征词时，说明该新闻文本的类别可能是“财经”类。

步骤S113，根据所述特征词所属已知新闻语料的新闻类别，将所述特征词添加到所述分类词表中。

示例地，本申请从新闻类别为“高层动态”的新闻语料中，获取的特征词有：元首会晤、正式访问、工作座谈会、重要讲话、国事访问、考察调研，等等；因此，将上述获取的特征词作为“高层动态”类别的特征词添加到分词类表中。

在一种可选择的实施方式中，分类词表中还包含正则表达式。新闻文本中存在着包含特定内容或以特定句式表达的特证句，特征句能够体现出新闻文本的分类倾向，例如：当某篇新闻文本中出现“全国人大召开会议”的特征句，说明该新闻文本的类别可能是“时政”类；当某篇新闻文本中出现“XXX获得XXX比赛冠军”的特征句，说明该新闻文本的类别可能是“体育”类。本申请的正则表达式概括了特征句的句式，因此，正则表达式在新闻文本分类中的作用为：当未知类别的新闻本中出现了正则表达式能够匹配到的句式时，表示该未知类别的新闻文本具有属于该正则表达式所在类别的倾向，正则表达式能够匹配到的句式越多，这个倾向就越强。

图5为本申请实施例提供的另一种新闻文本分类方法步骤S110的流程图，如图5所示，当分类词表中包含正则表达式时，步骤S110在步骤S111之后，还可以包括以下步骤：

步骤S114，从知新闻语料中获取特征句。

示例地，某房地产类新闻文本中包含特征句：“XX市本月新房交易量环比下降百分之三”。

特征词和特征句均能够体现出新闻文本的分类倾向，在对新闻文本分类的过程中，综合特征词和特征句进行新闻文本分类，能够提高文本分类的准确性。例如，上述示例的特征句中包含“新房”“交易量”“环比下降”等特征词，其中“新房”能够体现出新闻文本的房地产类倾向，而“交易量”“环比下降”由于在财经类新闻文本中也经常出现，更能够体现出新闻文本的财经类倾向，因此，当待分类的新闻文本中同时出现了“新房”“交易量”“环比下降”等特征词时，会对新闻文本分类造成干扰，可能导致新闻文本被错误地分类到财经类中。此时，如果通过特征句“XX市本月新房交易量环比下降百分之三”判断新闻类别，就能避免干扰，从而，提高新闻文本分类的准确性。

步骤S115，将所述特征句转化为正则表达式。

正则表达式能够通过字符串来描述具有特定句法规则的文本，在文本分类中，可以使用正则表达式从未知文本中匹配到一系列符合特定句法规则的文本，本申请将特征句具有的句法规则以正则表达式的形式提炼出来，在新闻文本的分类过程中，就可以使用正则表达式去匹配未知的新闻文本，从未知的新闻文本中找出具有特定句法规则的短语或句子，为新闻文本的分类提供依据。

示例地，某已知的新闻语料中包含有特征句“XX领导主持座谈会并发表重要讲话”，其中XX代表人名。那么，符合该特征句句法规则的一个正则表达式可以为：主持.{0,4}会.{0,6}讲话。

步骤S116，根据所述特征句来源的已知新闻语料的新闻类别，将正则表达式添加到所述分类词表中。

示例地，本申请从新闻类别为“高层动态”的新闻语料中，获取的正则表达式有：XX领导.*出席.*会议、主持.{0,4}会.{0,6}讲话、全国人大.{0,3}会议.{0,6}闭幕，等等。因此，将上述获取的正则表达式作为“高层动态”类别的正则表达式添加到分词类表中。

在一种可选择的实施方式中，每个特征词和正则表达式可设置有类别标签，类别标签用于表示特征词和正则表达式所属的新闻类别。

示例地，特征词和正则表达式及其对应的类别标签在分类词表中的存在形式可以为：

从上述分类词表中可以看出，分类词表可以包含三列，其中：最右侧为特征词或正则表达式；最左侧为复选框，通过对复选框进行选择，可以对单个特征词或正则表达式进行修改，或者，通过对复选框进行批量选择，可以批量地对特征词或正则表达式进行修改；中间一列为特征词或正则表达式的新闻类别。

本申请基于少量的已知新闻语料，创建包含特征词和正则表达式的分类词表，在分类词表中，根据对新闻文本分类的实际需求设置了多个新闻类别，本申请在步骤S110中创建的分类词表，不依赖大量积累的新闻文本，创建速度快，时效性高，具备了基础的新闻文本分类能力。

步骤S120，根据所述分类词表对新闻文本进行分类，获得新闻文本的命中类别。

在步骤S120中，根据分类词表获取新闻文本中特征词的数量和特征词的新闻类别，并根据特征词的数量和特征词的新闻类别确定新闻文本的命中类别。

图6为本申请实施例提供的一种新闻文本分类方法步骤S120的流程图。

在一种可选择的实施方式中，如图6所示，步骤S120可以包括以下步骤：

步骤S121，根据所述分类词表，获取新闻文本中包含的所有所述特征词。

示例地，根据分类词表遍历某一篇新闻文本，获取新闻文本中特征词如下：

2018年考研倒计时：研究生的头衔还“值钱”吗？

光明日报：“考研热”降温警醒研究生教育质量亟需提高

中新网客户端北京12月13日电(冷昊阳)2018年全国硕士研究生招生考试初试将于12月23日至25日进行。近年来，越来越多的本科生将考研作为“毕业出路”，招生规模的扩大也让舆论开始担忧研究生的培养质量。为什么越来越多的人选择考研？研究生队伍庞大正在导致“高学历贬值”？

12月7日，郑州大学新校区，考研进入倒计时，记者探访高校“考研族”。图为夜晚的图书馆里，考研学生占了相当大比例。(后文略)

可见，在上述示例的新闻文本中出现了两类特征词。一类特征词为教育类的特征词，包括：“考研”“研究生”“硕士”“招生”“考试”“初试”“本科生”“毕业”“高学历”“学生”；另一类特征词为财经类特征词，包括：“贬值”。

步骤S122，根据新闻文本中每个新闻类别的特征词出现的频次，分别获取新闻文本与每个新闻类别的匹配度。

通常，在一篇新闻文本中，某个新闻类别的特征词出现的频次越高，说明该新闻文本属于某个新闻类别的可能性就越高，本申请可以通过数学手段定义一个匹配度的计算方法，将某个新闻类别的特征词在新闻文本中出现的频次转化成新闻文本与某个新闻类别的匹配度。

图7为本申请实施例提供的一种新闻文本分类方法步骤S122的流程图，在一种可选择的实施方式中，步骤S122可以包括以下步骤：

步骤S1221，解析新闻文本的新闻结构；所述新闻结构包括标题、导语、主体、结语和背景五个部分。

新闻文本由标题、导语、主体、结语和背景五个部分组成。其中，标题起到提纲挈领的作用，阐明了新闻的主题，因此，在新闻文本的五个部分中，标题能够最明显地体现新闻类别；导语是新闻开头的第一段或第一句话，它简明扼要地揭示新闻的核心内容，导语也能够明显地体现新闻类别；主体是新闻文本的躯干，通常对应新闻文本的正文内容，它用充足的事实来表现主题，是对导语内容的进一步扩展和阐释；背景指的是新闻发生的社会环境和自然环境；结语是新闻文本的结束语，它对新闻的内容作以总结或说明新闻的采集记者、撰稿人的信息；背景和结语有时也可以暗含在主体中。

本申请在步骤S1221中，按照标题、导语、主体、结语和背景五个部分对新闻文本进行内容解析，从新闻文本中获取每部分对应的内容。

示例地，对某一篇新闻文本进行解析结果如下：

【标题】2018年考研倒计时：研究生的头衔还“值钱”吗？

光明日报：“考研热”降温警醒研究生教育质量亟需提高

【导语】中新网客户端北京12月13日电(冷昊阳)2018年全国硕士研究生招生考试初试将于12月23日至25日进行。近年来，越来越多的本科生将考研作为“毕业出路”，招生规模的扩大也让舆论开始担忧研究生的培养质量。为什么越来越多的人选择考研？研究生队伍庞大正在导致“高学历贬值”？

【主体】12月7日，郑州大学新校区，考研进入倒计时，记者探访高校“考研族”。图为夜晚的图书馆里，考研学生占了相当大比例。(后文略)

步骤S1222，获取新闻文本各个部分的特征词权重。

在新闻文本中，位于新闻文本不同部分的特征词对新闻类别的识别作用是不同的，因此，本申请对新闻文本的每个部分设置不同的特征词权重。

在标题中出现的特征词，对于新闻类别的识别作用最为明显。例如，当某篇新闻的标题包含特征词“融资”时，说明这篇新闻很可能是财经类新闻；当某篇新闻的包体中包含特征词“中超联赛”时，说明这篇新闻很可能是体育类新闻。因此，根据标题中的特征词对新闻类别的识别作用最明显的特点，可将标题部分的特征值权重设置为最高值，例如，设置为10。

在导语中出现的特征词，对于新闻类别的识别作用要弱于在标题中出现的特征词，但强于在主体中出现的特征词。因此，导语部分的特征值权重应小于标题部分的特征词权重，例如，设置为2。

其它部分的特征值权重可设置为1。

步骤S1223，根据每个新闻类别的所述特征词在新闻文本各个部分出现的频次和特征词权重，计算所述匹配度。

本申请中，计算所述匹配度使用以下公式：

P＝p1×C1+p2×C2+…+pn×Cn

其中，P为新闻文本与某个新闻类别的所述匹配度，p1～pn为新闻文本各个部分的特征词权重，C1～Cn为某个新闻类别的所述特征词在新闻文本各个部分的数量。

示例地，在上文示出的新闻文本中，标题部分的特征词权重p1＝10，导语部分的特征词权重p2＝2，主体、背景和结语部分的特征词权重合并处理为p3＝1。

在标题部分，教育类的特征词在标题部分出现的次数为C1＝4，在导语部分出现的次数为C2＝13，在主体、背景和结语部分出现的次数为C3＝6。因此，该新闻文本与教育类的匹配度P＝10×4+2×13+1×6＝72。

同理，该新闻文本与财经类的匹配度P＝2×1＝2。

步骤S123，将所述匹配度的最高值对应的新闻类别作为命中类别。

示例地，上文示出的新闻文本与教育类的匹配度最高，因此，教育类即为上述新闻文本的命中类别。

本申请根据分类词表对新闻文本进行分类，其中，根据新闻文本每个部分的特征词对新闻类别的识别作用的强弱不同，对每个部分设置了不同的特征词权重；然后根据每一类特征词在新闻文本各个部分出现的频次和各个部分的特征词权重，计算所述匹配度，从而，使匹配度能够准确地反映新闻文本与新闻类别的相关性；最后，将匹配度的最高值对应的新闻类别作为命中类别。本申请中根据分类词表对新闻文本进行分类的方法能够提高新闻文本分类的准确性。

步骤S130，对新闻文本进行分词，并获取每个新闻文本的分词与所述命中类别的相关度。

在新闻文本中，存在着一些分类词表中没有收录但是也能够对新闻文本的分类起到识别作用的词，为了从新闻文本中找出这些词，并将这些词添加进分类词表中，以丰富分类表的词汇量，提高分类词表的分类准确性。本申请在步骤S130中，首先对新闻文本进行分词，并获取每个新闻文本的分词与所述命中类别的相关度。

图8为本申请实施例提供的一种新闻文本分类方法步骤S130的流程图，在一种可选择的实施方式中，步骤S130可以包括以下步骤：

步骤S131，根据预设的切词规则，对新闻文本进行切词处理，获取新闻文本的分词。

本申请中，可以使用基于机器学习的中文切词方式，对新闻文本进行切词处理。

示例地，下面示出了一种对新闻文本的切词结果：

12/月/7/日/，/郑州/大学/新/校区/，/考研/进入/倒计时/，/记者/探访/高校/“/考研族/”/。/图/为/夜晚/的/图书馆/里/，/考研/学生/占/了/相当大/比例/。

步骤S132，去除新闻文本的分词中包含的停用词。

在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词(或集外词)。任何一类的词语都可以被选作停用词，具体地，将哪些词作为停用词，需要根据给定的目的来确定。在本申请中，停用词可以是英文字符、数字、数学字符、标点符号以及使用频率特高但没有实际含义的单汉字(例如：的、了)等。

本申请可以根据预设的停用词创建停用词表，然后，根据停用词表检索新闻文本的分词，并去除检索到的停用词。

示例地，对上文示出的切词结果去除停用词以后得到的结果为：

郑州/大学/新/校区/考研/进入/倒计时/记者/探访/高校/考研族/夜晚/图书馆/考研/学生/比例/

通过去除停用词，能够减少分词的数量，从而降低计算相关度时的计算量，提高效率。此外，需要补充说明的是，在步骤S132中，除了去除停用词以外，还可以从新闻文本的分词中去除掉存在于分类词表中特征词，以进一步降低计算相关度时的计算量，提高效率。

步骤S133，计算新闻文本的每个分词相对于所述命中类别的TF-IDF值，将所述TF-IDF值作为所述相关度。

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的加权技术。TF意思是词频(Term Frequency)，IDF意思是逆向文件频率(InverseDocument Frequency)。TF-IDF是一种统计方法，用以评估一个字词对于一个语料库的重要程度。字词的权重随着它在语料中出现的次数成正比增加，但同时会随着它在其他语料库中出现的频率成反比下降。

本申请中，TF指某个分词出现在命中类别的新闻文本中的次数。IDF指的是某个分词出现在所有新闻类别的新闻文本中次数的倒数。

步骤S140，根据所述相关度，从新闻文本的分词中选拔所述特征词，并将选拔出的所述特征词添加到所述分类词表中。

图9为本申请实施例提供的一种新闻文本分类方法步骤S140的流程图，在一种可选择的实施方式中，步骤S140包括以下步骤：

步骤S141，根据所述相关度，对新闻文本的分词进行排序。

示例地，根据相关度，对上述示出的新闻文本的分词排序结果为：

步骤S142，根据分词排序的结果，选取所述相关度高于第一预设值的所述分词作为所述特征词。

本申请可设置一个用于选拔特征词的第一预设值，第一预预设值可根据经验或通过多次演算取到一个合理值。示例地，本申请第一预设值的取值为0.75，从而选取“校区”“图书馆”为特征词。

步骤S143，将所述特征词添加到所述分类词表中。

示例地，将特征词“校区”“图书馆”作为教育类特征词添加到分类词表中。在后续进行的新闻文本分类中，分类词表就具备了从新闻文本中找出特征词“校区”和“图书馆”的能力，从而，分类词表对新闻文本的分类能力得到了提高。

本申请根据相关度对新闻文本的分词进行排序，并设置用于选取特征词的第一预设置，通过确定第一预设值的合理取值，从分词排序的结果选拔特征词。可通过改变第一预设值的取值大小调整选取特征词的数量和门槛，从而影响分类词表对新闻文本分类的精度。

步骤S150，重复执行步骤S120-S140，直到所述分类词表对新闻文本分类的准确率满足预设终止条件为止。

本申请在新闻文本分类的过程中，能够不断地使用不同的新闻文本重复执行步骤S120-S140，使分类词表在使用过程中能够不断积累和完善特征词，从而，使分类词表中的特征词能够及时跟随新闻文本的内容变化趋势，能够保持并不断提高分类词表对新出现的新闻文本的分类能力。因此，本申请提供的在新闻文本分类时更新分类词表的方法能够提高新闻文本分类的准确性。

在一种可选择的实施方式中，特征词包括正向特征词和反向特征词；正向特征词的特征词权重为正值，反向特征词的特征词权重为负值。

正向特征词的特征词权重为正值，因此，其表达的意义为：当新闻文本中出现了正向特征词时，说明该新闻文本具有分类到该正向特征词对应的新闻类别的倾向。反向特征词的特征词权重为负值，因此，其表达的意义为：当新闻文本中出现了反向特征词时，说明该新闻文本不应该分类到反向特征词对应的新闻类别中。

正向特征词和反向特征词在新闻文本分类比较细致的情形下具有很重要的使用意义。例如，出于实际需求，需要将体育类的新闻文本进一步的分类成：足球、篮球、网球、乒乓球、跳水等子类别，此时可以在“足球”的子类别下，将与篮球有关的特征词“盖帽”“三分球”“打手犯规”等，以及，将与网球有关的特征词“破发”“决胜局”等，以及与乒乓球、挑水等有关的特征词作为“足球”子类别的反向特征词，并对这些反向特征词设置绝对值更高的数值为负值的特征词权重，从而降低包含上述反向特征词的新闻文本与“足球”子类别的匹配度。

由以上技术方案可知，本申请实施例提供了一种新闻文本分类方法，首先，根据已知新闻语料创建分类词表；然后，根据分类词表对新闻文本进行分类，获得新闻文本的命中类别；然后，对新闻文本进行分词，并获取每个新闻文本的分词与命中类别的相关度；最后，根据相关度，从新闻文本的分词中选拔特征词，并将选拔出的特征词添加到分类词表中。随着新闻文本分类的进行，本申请实现了在新闻文本的分类过程中持续地更新分类词表，使分类词表在使用过程中能够不断积累和完善特征词，及时跟随新闻文本的内容变化趋势，保持并不断提高分类词表对新出现的新闻文本的分类能力，从而，提高了新闻文本分类的准确性。

实施例二

本申请实施例提供了一种新闻文本分类装置，图10为本申请实施例提供的一种新闻文本分类装置的结构框图，如图10所示，所述装置包括：

创建单元210，用于根据已知新闻语料创建分类词表；所述分类词表预设多个新闻类别，每个新闻类别中包含至少一个特征词；

分类单元220，用于根据所述分类词表对新闻文本进行分类，获得新闻文本的命中类别；

计算单元230，用于对新闻文本进行分词，并获取每个新闻文本的分词与所述命中类别的相关度；

选词单元240，用于根据所述相关度，从新闻文本的分词中选拔所述特征词，并将选拔出的所述特征词添加到所述分类词表中。

由以上技术方案可知，本申请实施例提供了一种新闻文本分类装置，所述装置根据已知新闻语料创建分类词表；然后，根据分类词表对新闻文本进行分类，获得新闻文本的命中类别；然后，对新闻文本进行分词，并获取每个新闻文本的分词与命中类别的相关度；最后，根据相关度，从新闻文本的分词中选拔特征词，并将选拔出的特征词添加到分类词表中。随着新闻文本分类的进行，本申请实现了在新闻文本的分类过程中持续地更新分类词表，使分类词表在使用过程中能够不断积累和完善特征词，及时跟随新闻文本的内容变化趋势，保持并不断提高分类词表对新出现的新闻文本的分类能力，从而，提高了新闻文本分类的准确性。

实施例三

本申请实施例提供了一种服务器，图11为本申请实施例提供的一种服务器的结构框图，如图11所示，所述服务器包括：

处理器310和存储器320；

所述存储器320用于存储分类词表和所述处理器310可执行的程序；

所述处理器310被配置为执行以下程序步骤：

S110，根据已知新闻语料创建分类词表；所述分类词表预设多个新闻类别，每个新闻类别中包含至少一个特征词；

由以上技术方案可知，本申请实施例提供了一种服务器，所述服务器根据已知新闻语料创建分类词表；然后，根据分类词表对新闻文本进行分类，获得新闻文本的命中类别；然后，对新闻文本进行分词，并获取每个新闻文本的分词与命中类别的相关度；最后，根据相关度，从新闻文本的分词中选拔特征词，并将选拔出的特征词添加到分类词表中。随着新闻文本分类的进行，本申请实现了在新闻文本的分类过程中持续地更新分类词表，使分类词表在使用过程中能够不断积累和完善特征词，及时跟随新闻文本的内容变化趋势，保持并不断提高分类词表对新出现的新闻文本的分类能力，从而，提高了新闻文本分类的准确性。

本申请可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种新闻文本分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据已知新闻语料创建分类词表；所述分类词表设置有多个新闻类别，每个新闻类别中包含至少一个特征词的步骤包括：

设置所述分类词表的新闻类别；

从已知新闻语料中获取所述特征词；

根据所述特征词所属已知新闻语料的新闻类别，将所述特征词添加到所述分类词表中。

3.根据权利要求2所述的方法，其特征在于，所述分类词表中还包含正则表达式，所述设置所述分类词表的新闻类别的步骤之后，还包括：

从已知新闻语料中获取特征句；

将所述特征句转化为正则表达式；

根据所述特征句来源的已知新闻语料的新闻类别，将正则表达式添加到所述分类词表中。

4.根据权利要求1所述的方法，其特征在于，所述根据所述分类词表对新闻文本进行分类，获得新闻文本的命中类别的步骤包括：

根据所述分类词表，获取新闻文本中包含的所有所述特征词；

根据新闻文本中每个新闻类别的特征词出现的频次，分别获取新闻文本与每个新闻类别的匹配度；

将所述匹配度的最高值对应的新闻类别作为命中类别。

5.根据权利要求4所述的方法，其特征在于，所述根据新闻文本中每个新闻类别的特征词出现的频次，分别获取新闻文本与每个新闻类别的匹配度的步骤包括：

解析新闻文本的新闻结构；所述新闻结构包括标题、导语、主体、结语和背景五个部分；

获取新闻文本各个部分的特征词权重；

根据每个新闻类别的所述特征词在新闻文本各个部分出现的频次和特征词权重，计算所述匹配度；

其中，计算所述匹配度使用以下公式：

P＝p1×C1+p2×C2+…+pn×Cn

6.根据权利要求1所述的方法，其特征在于，所述对新闻文本进行分词，并获取每个新闻文本的分词与所述命中类别的相关度的步骤包括：

根据预设的切词规则，对新闻文本进行切词处理，获取新闻文本的分词；

去除新闻文本的分词中包含的停用词；

计算新闻文本的每个分词相对于所述命中类别的TF-IDF值，将所述TF-IDF值作为所述相关度。

7.根据权利要求1所述的方法，其特征在于，所述根据相关度，从新闻文本的分词中选拔所述特征词，并将选拔出的所述特征词添加到所述分类词表中的步骤包括：

根据所述相关度，对新闻文本的分词进行排序；

根据分词排序的结果，选取所述相关度高于第一预设值的所述分词作为所述特征词；

将所述特征词添加到所述分类词表中。

8.根据权利要求5所述的方法，其特征在于，

所述特征词包括正向特征词和反向特征词；所述正向特征词的特征词权重为正值，所述反向特征词的特征词权重为负值。

9.一种新闻文本分类装置，其特征在于，包括：

10.一种服务器，其特征在于，包括：

处理器和存储器；

所述存储器用于存储分类词表和所述处理器可执行的程序；

所述处理器被配置为执行以下步骤程序：