CN105760526A - 一种新闻分类的方法和装置 - Google Patents
一种新闻分类的方法和装置 Download PDFInfo
- Publication number
- CN105760526A CN105760526A CN201610115723.5A CN201610115723A CN105760526A CN 105760526 A CN105760526 A CN 105760526A CN 201610115723 A CN201610115723 A CN 201610115723A CN 105760526 A CN105760526 A CN 105760526A
- Authority
- CN
- China
- Prior art keywords
- score value
- press release
- area name
- matching result
- obtains
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明的实施方式提供了一种新闻分类的方法和装置:提取新闻稿件的新闻标题;对所述新闻标题进行目标类别匹配,得到第一匹配结果;计算所述第一匹配结果的第一分值,并判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中,所提出的方案由于可以避免人工阅读每篇新闻稿件,根据稿件内容标记进行分类,因此,解决了现有技术中存在的效率较低、时效性较差和准确度较低的缺陷。
Description
技术领域
本发明的实施方式涉及计算机技术领域,更具体地,本发明的实施方式涉及一种新闻分类的方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
新闻,是指通过报纸、电台、广播、电视台、互联网等媒体途径所传播的信息的一种称谓,主要为对新近发生事实的报道或者新近事实变动的报道,因此,新闻的及时性显得尤为重要。
在日常生活中,为了便于读者能快速找到自己所关心的新闻,需要对新闻进行分类,目前常用的分类方法主要为人工方法:人工阅读每篇新闻稿件,根据稿件内容标记进行分类,例如,根据稿件内容标记它对应的地区,按地区归类稿件,汇总为该地区的本地新闻。
发明内容
但是目前的方法由于需要人工来处理,因此,存在效率较低、时效性较差和准确度较低的缺陷,这是非常令人烦恼的过程。
为此,非常需要一种改进的新闻分类的方法及装置,以使解决现有技术中存在的效率较低、时效性较差及准确度较低的缺陷。
在本上下文中,本发明的实施方式期望提供一种新闻分类的方法及装置。
在本发明实施方式的第一方面中,提供了一种新闻分类的方法,包括:
提取新闻稿件的新闻标题;
对所述新闻标题进行目标类别匹配,得到第一匹配结果;
计算所述第一匹配结果的第一分值,并判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。
在一个实施例中,根据本发明的上述实施例所述的方法,对所述新闻标题进行目标类别匹配,得到第一匹配结果,包括:
对所述新闻标题进行地区名称匹配,得到至少一个地区名称;
计算所述第一匹配结果的第一分值,包括:
针对所述至少一个地区名称中的任意一地区名称,分别执行:
确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻标题中出现的次数;
将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第一初始分值;
确定所有第一初始分值中的最大值和次大值,所述次大值是指小于所述最大值,且大于所述所有第一初始分值中除所述最大值之外的所有剩余第一初始分值的第一初始分值;
将所述最大值除以所述次大值得到的比值,作为所述第一分值;
将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中,包括:
将所述新闻稿件划分为所有第一初始分值中的最大第一初始分值所对应的地区名称中。
在一些实施例中,根据本发明的上述任一实施例所述的方法,判定所述第一分值满足第一预设条件,包括:
判定所述第一分值大于或者等于1.5。
在一些实施例中,根据本发明的上述任一实施例所述的方法,若判定所述第一分值不满足所述第一预设条件,所述方法还包括:
提取所述新闻稿件的新闻正文内容;
对所述新闻正文内容进行目标类别匹配,得到第二匹配结果;
计算所述第二匹配结果的第二分值,并判定所述第二分值满足第二预设条件时,将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中。
在一些实施例中,根据本发明的上述任一实施例所述的方法,对所述新闻正文内容进行目标类别匹配,得到第二匹配结果,包括:
对所述新闻正文内容进行地区名称匹配,得到至少一个地区名称;
计算所述第二匹配结果的第二分值,包括:
针对所述至少一个地区名称中的任意一地区名称,分别执行:
确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻正文内容中出现的次数;
将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第二初始分值;
确定所有第二初始分值中的最大值和目标地区名称在所述新闻正文内容中出现的次数,所述目标地区名称为所述最大值所对应的地区名称;
将所述目标地区名称在所述新闻正文内容中出现的次数,减去剩余地区名称中的每一个剩余地区名称所对应的次数得到的值,作为所述第二分值;
其中:所述剩余地区名称为所述至少一个地区名称中除所述最大值所对应的地区名称之外的地区名称;
将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中,包括:
将所述新闻稿件划分为所有第二初始分值中的最大第二初始分值所对应的地区名称中。
在一些实施例中,根据本发明的上述任一实施例所述的方法,判定所述第二分值满足第二预设条件,包括:
判定所述第二分值大于或者等于3。
在一些实施例中,根据本发明的上述任一实施例所述的方法,判定所述第二分值不满足所述第二预设条件之后,所述方法还包括:
根据分类模型预测所述新闻稿件所属地区的概率;
判定所述概率大于阈值时,将所述新闻稿件作为所述所属地区的新闻稿件。
在一些实施例中,根据本发明的上述任一实施例所述的方法,根据分类模型预测所述新闻稿件所属地区的概率之前,所述方法还包括:
获取训练语料,所述训练语料包括判定所述第一分值满足第一预设条件时的所述新闻稿件及其对应的地区名称,和/或判定所述第二分值满足第二预设条件时的所述新闻稿件及其对应的地区名称;以及
基于所述训练语料,得到所述分类模型。
在一些实施例中,根据本发明的上述任一实施例所述的方法,基于所述训练语料,得到所述分类模型,包括:
采用向量空间模型及词频逆向文件词频TF-IDF算法,对所述训练语料中的每一篇新闻稿件提取关键词;
根据对应的稿件属性和关键词,将所述每一篇新闻稿件均编码成特征向量;
将编码为特征向量的训练语料进行特征选择和特征组合;
采用多分类逻辑斯蒂模型,将进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
在本发明实施方式的第二方面中,提供了一种新闻分类的装置,包括:
提取单元,用于提取新闻稿件的新闻标题;
匹配单元,用于对所述新闻标题进行目标类别匹配,得到第一匹配结果;
计算单元,用于计算所述第一匹配结果的第一分值;
判断单元,用于判断所述第一分值是否满足第一预设条件;
分类单元,用于在所述判断单元判定所述第一分值满足所述第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。
在一个实施例中,根据本发明的上述实施例所述的装置,所述匹配单元对所述新闻标题进行目标类别匹配,得到第一匹配结果时,具体为:
对所述新闻标题进行地区名称匹配,得到至少一个地区名称;
所述计算单元包括确定单元和乘积计算单元,其中:
所述确定单元,用于针对所述至少一个地区名称中的任意一地区名称,分别执行:确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻标题中出现的次数;
所述乘积计算单元,用于将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第一初始分值;
所述确定单元还用于,确定所有第一初始分值中的最大值和次大值,所述次大值是指小于所述最大值,且大于所述所有第一初始分值中除所述最大值之外的所有剩余第一初始分值的第一初始分值;
所述确定单元还用于,将所述最大值除以所述次大值得到的比值,作为所述第一分值;
所述分类单元具体用于:将所述新闻稿件划分为所有第一初始分值中的最大第一初始分值所对应的地区名称中。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述判断单元判定所述第一分值满足第一预设条件时,具体为:
判定所述第一分值大于或者等于1.5。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述提取单元还用于,提取所述新闻稿件的新闻正文内容;
所述匹配单元还用于,对所述新闻正文内容进行目标类别匹配,得到第二匹配结果;
所述计算单元还用于,计算所述第二匹配结果的第二分值;
所述判断单元还用于,判断所述第二分值是否满足第二预设条件;
所述分类单元还用于,在所述判断单元判定所述第二分值满足第二预设条件时,将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述匹配单元对所述新闻正文内容进行目标类别匹配,得到第二匹配结果时,具体为:
对所述新闻正文内容进行地区名称匹配,得到至少一个地区名称;
所述计算单元包括确定单元和乘积计算单元,其中:
所述确定单元,用于针对所述至少一个地区名称中的任意一地区名称,分别执行:确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻正文内容中出现的次数;
所述乘积计算单元,用于将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第二初始分值;
所述确定单元还用于,确定所有第二初始分值中的最大值和目标地区名称在所述新闻正文内容中出现的次数,所述目标地区名称为所述最大值所对应的地区名称;
所述计算单元还用于,将所述目标地区名称在所述新闻正文内容中出现的次数,减去剩余地区名称中的每一个剩余地区名称所对应的次数得到的值,作为所述第二分值;
其中,所述剩余地区名称为所述至少一个地区名称中除所述最大值所对应的地区名称之外的地区名称;
所述分类单元具体用于:将所述新闻稿件划分为所有第二初始分值中的最大第二初始分值所对应的地区名称中。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述判断单元判定所述第二分值满足第二预设条件时,具体为:
判定所述第二分值大于或者等于3。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述装置还包括算法单元,用于根据分类模型预测所述新闻稿件所属地区的概率;在判定所述概率大于阈值时,将所述新闻稿件作为所述所属地区的新闻稿件。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述算法单元包括获取单元和训练单元,其中:
所述获取单元,用于获取训练语料,所述训练语料包括判定所述第一分值满足第一预设条件时的所述新闻稿件及其对应的地区名称,和/或判定所述第二分值满足第二预设条件时的所述新闻稿件及其对应的地区名称;
所述训练单元,用于基于所述训练语料,得到所述分类模型。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述算法单元还包括编码单元和特征处理单元,其中:
所述提取单元还用于,采用向量空间模型及词频逆向文件词频TF-IDF算法,对所述训练语料中的每一篇新闻稿件提取关键词;
所述编码单元,用于根据对应的稿件属性和关键词,将所述每一篇新闻稿件均编码成特征向量;
所述特征处理单元,用于将编码为特征向量的训练语料进行特征选择和特征组合;
所述训练单元还用于,采用多分类逻辑斯蒂模型,将进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
在本发明实施方式的第三方面中,提供了一种新闻分类的方法,包括:
对新闻稿件进行目标类别匹配,得到匹配结果;
计算所述匹配结果的分值,并判定所述分值满足预设条件时,将所述新闻稿件划分为所述匹配结果所对应的目标类别中;
基于所述新闻稿件和对应的目标类别训练分类模型;判定所述分值不满足所述预设条件时,基于所述分类模型将所述新闻稿件进行分类。
在一个实施例中,根据本发明的上述实施例所述的方法,对新闻稿件进行目标类别匹配,得到匹配结果,包括:
提取新闻稿件的新闻标题;以及
对所述新闻标题进行目标类别匹配,得到第一匹配结果;
计算所述匹配结果的分值,并判定所述分值满足预设条件时,将所述新闻稿件划分为所述匹配结果所对应的目标类别中,包括:
计算所述第一匹配结果的第一分值,并判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。
在一些实施例中,根据本发明的上述任一实施例所述的方法,对所述新闻标题进行目标类别匹配,得到第一匹配结果,包括:
对所述新闻标题进行地区名称匹配,得到至少一个地区名称;
计算所述第一匹配结果的第一分值,包括:
针对所述至少一个地区名称中的任意一地区名称,分别执行:
确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻标题中出现的次数;
将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第一初始分值;
确定所有第一初始分值中的最大值和次大值,所述次大值是指小于所述最大值,且大于所述所有第一初始分值中除所述最大值之外的所有剩余第一初始分值的第一初始分值;
将所述最大值除以所述次大值得到的比值,作为所述第一分值;
将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中,包括:
将所述新闻稿件划分为所有第一初始分值中的最大第一初始分值所对应的地区名称中。
在一些实施例中,根据本发明的上述任一实施例所述的方法,若判定所述第一分值不满足所述第一预设条件,所述方法还包括:
提取所述新闻稿件的新闻正文内容;
对所述新闻正文内容进行目标类别匹配,得到第二匹配结果;
计算所述第二匹配结果的第二分值,并判定所述第二分值满足第二预设条件时,将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中。
在一些实施例中,根据本发明的上述任一实施例所述的方法,对所述新闻正文内容进行目标类别匹配,得到第二匹配结果,包括:
对所述新闻正文内容进行地区名称匹配,得到至少一个地区名称;
计算所述第二匹配结果的第二分值,包括:
针对所述至少一个地区名称中的任意一地区名称,分别执行:
确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻正文内容中出现的次数;
将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第二初始分值;
确定所有第二初始分值中的最大值和目标地区名称在所述新闻正文内容中出现的次数,所述目标地区名称为所述最大值所对应的地区名称;
将所述目标地区名称在所述新闻正文内容中出现的次数,减去剩余地区名称中的每一个剩余地区名称所对应的次数得到的值,作为所述第二分值;
其中:所述剩余地区名称为所述至少一个地区名称中除所述最大值所对应的地区名称之外的地区名称;
将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中,包括:
将所述新闻稿件划分为所有第二初始分值中的最大第二初始分值所对应的地区名称中。
在一些实施例中,根据本发明的上述任一实施例所述的方法,基于所述新闻稿件和对应的目标类别训练分类模型,包括:
获取训练语料,所述训练语料包括判定所述第一分值满足第一预设条件时的所述新闻稿件及其对应的地区名称,和/或判定所述第二分值满足第二预设条件时的所述新闻稿件及其对应的地区名称;以及
基于所述训练语料,得到所述分类模型。
在一些实施例中,根据本发明的上述任一实施例所述的方法,基于所述训练语料,得到所述分类模型,包括:
采用向量空间模型及词频逆向文件词频TF-IDF算法,对所述训练语料中的每一篇新闻稿件提取关键词;
根据对应的稿件属性和关键词,将所述每一篇新闻稿件均编码成特征向量;
将编码为特征向量的训练语料进行特征选择和特征组合;
采用多分类逻辑斯蒂模型,将进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
在一些实施例中,根据本发明的上述任一实施例所述的方法,基于所述分类模型将所述新闻稿件进行分类,包括:
根据分类模型预测所述新闻稿件所属地区的概率;
判定所述概率大于阈值时,将所述新闻稿件作为所述所属地区的新闻稿件。
在一些实施例中,根据本发明的上述任一实施例所述的方法,基于所述新闻稿件和对应的目标类别训练分类模型,包括:
周期性地基于所述新闻稿件和对应的目标类别训练分类模型。
在本发明实施方式的第四方面中,提供了一种新闻分类的装置,包括:
匹配单元,用于对新闻稿件进行目标类别匹配,得到匹配结果;
计算单元,用于计算所述匹配结果的分值;
判断单元,用于判断所述分值是否满足预设条件;
分类单元,用于在所述判断单元判定所述分值满足预设条件时,将所述新闻稿件划分为所述匹配结果所对应的目标类别中;
算法单元,用于基于所述新闻稿件和对应的目标类别训练分类模型;
所述分类单元还用于,在所述判断单元判定所述分值不满足所述预设条件时,基于所述分类模型将所述新闻稿件进行分类。
在一个实施例中,根据本发明的上述实施例所述的装置,所述装置还包括提取单元,用于提取新闻稿件的新闻标题;
所述匹配单元具体用于,对所述新闻标题进行目标类别匹配,得到第一匹配结果;
所述计算单元具体用于,计算所述第一匹配结果的第一分值;
所述分类单元具体用于,在所述判断单元判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述匹配单元对所述新闻标题进行目标类别匹配,得到第一匹配结果时,具体为:
对所述新闻标题进行地区名称匹配,得到至少一个地区名称;
所述计算单元包括确定单元和乘积计算单元,其中:
所述确定单元,用于针对所述至少一个地区名称中的任意一地区名称,分别执行:确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻标题中出现的次数;
所述乘积计算单元,用于将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第一初始分值;
所述确定单元还用于,确定所有第一初始分值中的最大值和次大值,所述次大值是指小于所述最大值,且大于所述所有第一初始分值中除所述最大值之外的所有剩余第一初始分值的第一初始分值;
所述确定单元还用于,将所述最大值除以所述次大值得到的比值,作为所述第一分值;
所述分类单元具体用于:将所述新闻稿件划分为所有第一初始分值中的最大第一初始分值所对应的地区名称中。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述提取单元还用于,提取所述新闻稿件的新闻正文内容;
所述匹配单元还用于,对所述新闻正文内容进行目标类别匹配,得到第二匹配结果;
所述计算单元还用于,计算所述第二匹配结果的第二分值;
所述判断单元还用于,判断所述第二分值是否满足第二预设条件;
所述分类单元还用于,在所述判断单元判定所述第二分值满足第二预设条件时,将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述匹配单元对所述新闻正文内容进行目标类别匹配,得到第二匹配结果时,具体为:
对所述新闻正文内容进行地区名称匹配,得到至少一个地区名称;
所述计算单元包括确定单元和乘积计算单元,其中:
所述确定单元,用于针对所述至少一个地区名称中的任意一地区名称,分别执行:确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻正文内容中出现的次数;
所述乘积计算单元,用于将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第二初始分值;
所述确定单元还用于,确定所有第二初始分值中的最大值和目标地区名称在所述新闻正文内容中出现的次数,所述目标地区名称为所述最大值所对应的地区名称;
所述计算单元还用于,将所述目标地区名称在所述新闻正文内容中出现的次数,减去剩余地区名称中的每一个剩余地区名称所对应的次数得到的值,作为所述第二分值;
其中,所述剩余地区名称为所述至少一个地区名称中除所述最大值所对应的地区名称之外的地区名称;
所述分类单元具体用于:将所述新闻稿件划分为所有第二初始分值中的最大第二初始分值所对应的地区名称中。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述算法单元包括获取单元和训练单元,其中:
所述获取单元,用于获取训练语料,所述训练语料包括判定所述第一分值满足第一预设条件时的所述新闻稿件及其对应的地区名称,和/或判定所述第二分值满足第二预设条件时的所述新闻稿件及其对应的地区名称;以及
所述训练单元,用于基于所述训练语料,得到所述分类模型。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述算法单元还包括编码单元和特征处理单元,其中:
所述提取单元还用于,采用向量空间模型及词频逆向文件词频TF-IDF算法,对所述训练语料中的每一篇新闻稿件提取关键词;
所述编码单元,用于根据对应的稿件属性和关键词,将所述每一篇新闻稿件均编码成特征向量;
所述特征处理单元,用于将编码为特征向量的训练语料进行特征选择和特征组合;
所述训练单元还用于,采用多分类逻辑斯蒂模型,将进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述算法单元具体用于,根据分类模型预测所述新闻稿件所属地区的概率;在判定所述概率大于阈值时,将所述新闻稿件作为所述所属地区的新闻稿件。
在一些实施例中,根据本发明的上述任一实施例所述的装置,所述算法单元具体用于,周期性地基于所述新闻稿件和对应的目标类别训练分类模型。
本发明实施例中,提出一种新闻分类的方法:提取新闻稿件的新闻标题;对所述新闻标题进行目标类别匹配,得到第一匹配结果;计算所述第一匹配结果的第一分值,并判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中;由于该方案避免人工阅读每篇新闻稿件,根据稿件内容标记进行分类,因此,解决了现有技术中存在的效率较低、时效性较差和准确度较低的缺陷;
本发明实施例中,还提出一种新闻分类的方法:对新闻稿件进行目标类别匹配,得到匹配结果;计算所述匹配结果的分值,并判定所述分值满足预设条件时,将所述新闻稿件划分为所述匹配结果所对应的目标类别中;基于所述新闻稿件和对应的目标类别训练分类模型;判定所述分值不满足所述预设条件时,基于所述分类模型将所述新闻稿件进行分类,由于该方案也能够避免人工阅读每篇新闻稿件,根据稿件内容标记进行分类,因此,解决了现有技术中存在的效率较低、时效性较差和准确度较低的缺陷。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1A示意性地示出了根据本发明实施方式的进行新闻分类的流程图;
图1B示意性地示出了根据本发明实施方式的根据新闻正文内容进行分类的流程图;
图1C示意性地示出了根据本发明实施方式的得到分类模型的流程图;
图1D示意性地示出了根据本发明实施方式的根据分类模型进行新闻稿件分类的流程图;
图2示意性地示出了根据本发明实施方式的进行新闻分类的流程图;
图3示意性地示出了根据本发明实施方式的进行新闻分类的装置的一种示意图;
图4示意性地示出了根据本发明另一实施方式的进行新闻分类的装置的另一示意图;
图5示意性地示出了根据本发明另一实施方式的进行新闻分类的装置的另一示意图;
图6示意性地示出了根据本发明另一实施方式的进行新闻分类的装置的另一示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。说明书中的“实施例”或“实施方式”既可表示一个实施例或一种实施方式,也可表示一些实施例或一些实施方式的情况。
本领域技术技术人员知道,本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种新闻分类的方法和装置。
需要说明的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面对本发明中所涉及的技术术语进行简单描述,以便相关人员更好的理解本方案。
有监督的机器学习分类算法:可以指确定一组已标记类别的训练数据集,使用数学模型和优化算法拟合这组训练数据集,得到数学模型,得到的数学模型可以用来预测未知类别的训练样本类别。例如:逻辑斯蒂分类算法、朴素贝叶斯算法、支持向量机算法等。
分类模型:可以指用有监督的机器学习分类算法,拟合训练数据集后得到的数学模型。
训练语料:可以指已标记类别的文本类型的训练数据集。
自举式:可以指无需借助外部资源,在***启动之初,依靠自身策略达到一定效果的方式。
准确率:可以指使用有监督的机器学习分类算法训练得到的分类模型,对一组未知类别的测试样本预测后,所得到的结果与测试样本真实类别的比值,准确率可以用来衡量分类算法的分类能力。
AC自动机算法:可以指通过构造一棵字典树,快速查找文本中单词出现频次的算法,常被搜索引擎***用于文本词频匹配,查询效率比哈希表高。
阈值:又叫临界值,可以指一个效应能够产生的最低值或最高值。
多分类逻辑斯蒂模型:采用sigmoid函数作为匹配假设,可以分类两个以上类别的有监督机器学习分类算法。
向量空间模型:把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度。当文档被表示为文档空间的向量,就可以通过计算向量之间的余弦距离来度量文档间的相似性。
TF-IDF(termfrequency–inversedocumentfrequency,词频-逆向文件频率)算法:一种用于资讯检索与资讯探勘的常用加权技术,用以评估每个词语在稿件的重要程度。词语的重要性随着它在稿件中出现的次数成正比增加,但同时会随着它在语料库中出现的频次成反比下降。TF-IDF算法常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量。
特征选择:是指从训练数据集原有的M个特征中,选择N个最重要的特征,使得机器学习算法的分类效果最优化。特征选择是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。
特征组合:是指将训练数据集原有的M个特征,做线性或非线性组合后得到N个新的特征,级联到原有特征之后。使用这M+N个特征用于机器学习分类算法,使其效果最优化的过程。
发明概述
本发明人发现,现有技术采用人工来对新闻分类,这样存在效率较低、时效性较差和准确度较低的缺陷,避免采用人工来进行分类的话,会提高新闻分类的效率、时效性和准确度。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
例如,针对标题为“安徽长途女乘客中途失联”的新闻稿件,先提取出新闻标题“安徽长途女乘客中途失联”,再对新闻标题进行目标类别匹配,得到第一匹配结果,计算第一匹配结果的第一分值,判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。
本发明中所涉及的新闻稿件可以是网易新闻稿件,也可以是其他新闻稿件,在此不做具体限定。
示例性方法
参考图1A、图2来描述根据本发明示例性实施方式的用于新闻分类的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
图1A示意性地示出了根据本发明实施方式的用于新闻分类的方法10的流程示意图。如图1A所示,该方法可以包括步骤100、110以及120。
方法10始于步骤100,其中提取新闻稿件的新闻标题。
本发明实施例中的新闻稿件可以是网易新闻稿件,当然,也可以是其他媒体的新闻稿件,在此不做具体限定。
本发明实施例中,提取新闻稿件的新闻标题的方式有多种,在此不做具体限定。
在步骤100之后,还可以执行步骤110,其中对所述新闻标题进行目标类别匹配,得到第一匹配结果。
本发明实施例中,对所述新闻标题进行目标类别匹配,得到第一匹配结果时,可选地,可以采用如下方式:
对所述新闻标题进行地区名称匹配,得到至少一个地区名称。
例如,新闻标题为“北京房价与上海、深圳房价比较”,由于该新闻标题与3个地区名称相匹配,因此,得到3个地区名称。
本发明实施例中,对所述新闻标题进行目标类别匹配时,可以采用AC自动机算法实现,当然也可以采用其他方式,在此不再进行详述。
需要说明的是,有些专有名词可能也包括地区名称,为了提高新闻分类的准确度,将这些专有名词中包括的地区名称不作为本发明中匹配得到的地区名称。
例如,“杭州路”、“上海大众”等专有名词不作为本发明中的地区名称。
本发明实施例中,可以存储包括地区名称的专有名词,例如,通过从公开的词典中抽取与地区名称有关的词得到。
在步骤110之后,还可以执行步骤120,其中计算所述第一匹配结果的第一分值,并判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。
本发明实施例中,采用如下方式对所述新闻标题进行目标类别匹配,得到第一匹配结果时:对所述新闻标题进行地区名称匹配,得到至少一个地区名称。计算所述第一匹配结果的第一分值时,可选地,可以采用如下方式:
针对所述至少一个地区名称中的任意一地区名称,分别执行:
确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻标题中出现的次数;
将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第一初始分值;
确定所有第一初始分值中的最大值和次大值,所述次大值是指小于所述最大值,且大于所述所有第一初始分值中除所述最大值之外的所有剩余第一初始分值的第一初始分值;
将所述最大值除以所述次大值得到的比值,作为所述第一分值;
将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中,包括:
将所述新闻稿件划分为所有第一初始分值中的最大第一初始分值所对应的地区名称中。
本发明实施例中,地区名称可以分为三类,省级、市级和区级,如表1所示。
表1地区名称分类
序号 | 地区名称 | 上级地区 | 地区级别 |
1 | 北京 | 无 | 省级 |
2 | 浙江 | 无 | 省级 |
3 | 杭州 | 浙江 | 市级 |
4 | 宁波 | 浙江 | 市级 |
5 | 西湖 | 杭州 | 区级 |
本发明实施例中,不同级别的地区名称对应的基本分值可以是不同的,例如,省级的地区名称对应的基本分值可以大于市级的地区名称对应的基本分值,市级的地区名称对应的基本分值可以大于区级的地区名称对应的基本分值。
本发明实施例中,判定所述第一分值满足第一预设条件时,可选地,可以采用如下方式:
判定所述第一分值大于或者等于1.5。
例如,对一个新闻标题是“武汉、南京人在杭州的新杭州生活”,匹配到“武汉”、“南京”和“杭州”三个地名。假设该三个地名的基本分值都为10,则三个地名的初始分值分别为10、10和20。则其最大值是对应“杭州”的20,次大值为对应“武汉”或“南京”的10,最大值与次大值的比值为2,大于1.5,满足预设条件。则将新闻稿件划分到最大值对应的地名“杭州”的类别中。
除上述分类方法,还可以有其他任意的分类方法,如把出现次数作为第一分值,将新闻稿件归类至出现次数最多的地名中等。
前面描述的是根据新闻标题对新闻进行分类的情况,在实际应用中,当第一分值不满足第一预设条件时,无法根据新闻标题进行分类,此时,进一步的,可以根据新闻正文内容对新闻进行分类,因此,本发明实施例中,进一步的,若判定所述第一分值不满足所述第一预设条件,所述方法还包括如下操作:
提取所述新闻稿件的新闻正文内容;
对所述新闻正文内容进行目标类别匹配,得到第二匹配结果;
计算所述第二匹配结果的第二分值,并判定所述第二分值满足第二预设条件时,将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中。
也就是说,首先利用新闻稿件的新闻标题的第一匹配结果进行分类;如果无法根据新闻稿件的新闻标题对新闻稿件分类,接下来可以利用新闻稿件的新闻正文内容对新闻稿件进行分类。如图1B所示。
本发明实施例中,对所述新闻正文内容进行目标类别匹配,得到第二匹配结果时,可选地,可以采用如下方式:
对所述新闻正文内容进行地区名称匹配,得到至少一个地区名称;
计算所述第二匹配结果的第二分值,包括:
针对所述至少一个地区名称中的任意一地区名称,分别执行:
确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻正文内容中出现的次数;
将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第二初始分值;
确定所有第二初始分值中的最大值和目标地区名称在所述新闻正文内容中出现的次数,所述目标地区名称为所述最大值所对应的地区名称;
将所述目标地区名称在所述新闻正文内容中出现的次数,减去剩余地区名称中的每一个剩余地区名称所对应的次数得到的值,作为所述第二分值;
其中:所述剩余地区名称为所述至少一个地区名称中除所述最大值所对应的地区名称之外的地区名称;
将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中,包括:
将所述新闻稿件划分为所有第二初始分值中的最大第二初始分值所对应的地区名称中。
例如,新闻正文内容为“上周日,2015亚足联中国展望杭州项目精英联赛在大雨中打响。8支杭城业余足球队齐聚桐庐足球训练基地,他们将在这里展开为期三周的较量。活动由杭州市足球协会主办、杭州市足球管理中心承办,也是杭州市第34届西湖杯超级联赛的一部分。来观战的球迷,除了本地的足球爱好者,还包括来自宁波等地区的业余足球俱乐部代表”,根据新闻正文内容得到的地区匹配名称为杭州和宁波。
本发明实施例中,判定所述第二分值满足第二预设条件的方式有多种,可选的,可以采用如下方式:
判定所述第二分值大于或者等于3。
例如,新闻正文内容为“上周日,2015亚足联中国展望杭州项目精英联赛在大雨中打响。8支杭城业余足球队齐聚桐庐足球训练基地,他们将在这里展开为期三周的较量。活动由杭州市足球协会主办、杭州市足球管理中心承办,也是杭州市第34届西湖杯超级联赛的一部分。来观战的球迷,除了本地的足球爱好者,还包括来自宁波等地区的业余足球俱乐部代表”,通过对上述新闻正文内容进行匹配,得到的地区匹配名称为杭州和宁波,且“杭州”出现的次数为4次,“宁波”出现的次数为1次,则杭州的第一初始分值为10×4=40、宁波的第一初始分值为10×1=10,首先判定杭州的第一初始分值除以宁波的第一初始分值得到的值大于1.5;则将新闻稿件归类为杭州的本地新闻稿件。如果杭州的第一初始分值除以宁波的第一初始分值得到的值小于1.5的话,判断杭州出现的次数减去宁波出现的次数得到的值是否大于或者等于3;例如在上面的例子中,杭州出现的次数减去其宁波出现的次数是4-1=3;因此,将新闻稿件归类为杭州的本地新闻稿件。
上述提出的方法过程是自举的,无需任何人工投入,能实时处理大规模本地新闻归类请求,具有较高的效率和较好的时效性,满足互联网新闻类产品的功能需要。
前面描述的是先根据新闻标题进行分类,若无法根据新闻标题进行分类时,接下来根据新闻正文内容进行分类,此时,如果根据新闻正文内容也无法进行分类时,可以根据分类模型进行分类,因此,本发明实施例中,进一步的,判定所述第二分值不满足所述第二预设条件之后,所述方法还包括如下操作:
根据分类模型预测所述新闻稿件所属地区的概率;
判定所述概率大于阈值时,将所述新闻稿件作为所述所属地区的新闻稿件。
本发明实施例中,根据分类模型预测所述新闻稿件所属地区的概率之前,所述方法还包括如下操作:
获取训练语料,所述训练语料包括判定所述第一分值满足第一预设条件时的所述新闻稿件及其对应的地区名称,和/或判定所述第二分值满足第二预设条件时的所述新闻稿件及其对应的地区名称;以及
基于所述训练语料,得到所述分类模型。
这里的“之前”用于表示逻辑上的前后,事实上,根据分类模型预测所述新闻稿件所属地区的概率的步骤与获取训练语料并基于训练语料得到分类模型的步骤是根据各自的需求并行进行的。
本发明实施例中,基于所述训练语料,得到所述分类模型时,可选地,可以采用如下方式:
采用向量空间模型及TF-IDF算法,对所述训练语料中的每一篇新闻稿件提取关键词;
根据对应的稿件属性和关键词,将所述每一篇新闻稿件均编码成特征向量;
将编码为特征向量的训练语料进行特征选择和特征组合;
采用多分类逻辑斯蒂模型,将进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
图1C为根据一实施例的得到分类模型的主要过程:获取训练语料,对训练语料中的每一篇新闻稿件提取关键词,根据对应的稿件属性和关键词将每一篇新闻稿件编码成特征向量,然后,将编码为特征向量的训练语料进行特征选择和特征组合,接下来,进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
本发明实施例中,可以周期性地更新分类模型,例如一天一次。
本发明实施例中,稿件属性包括稿件的发稿媒体信息和/或发稿时间信息等。
本发明实施例中,如果新闻稿件也无法根据分类模型进行分类的话,可以判定该新闻稿件无法分类。
图1D为根据分类模型对新闻稿件进行分类的流程示意图,根据分类模型预测新闻稿件所属地区及其概率,判断概率是否大于阈值,若是,将所述新闻稿件作为所述所属地区的新闻稿件,否则,认为稿件无法分类。
上述方法首先使用评分规则自举归类出准确率高的本地新闻稿件,然后由有监督的机器学习算法基于这部分稿件训练分类模型,对其他新闻稿件进行补充归类,实现无需人工投入,能实时处理大规模本地新闻归类请求,满足互联网新闻类产品的功能需要。
图2示意性地示出了根据本发明实施方式的用于新闻分类的方法20的流程示意图。如图2所示,该方法可以包括步骤200、210以及220。
方法20始于步骤200,其中对新闻稿件进行目标类别匹配,得到匹配结果。
本发明实施例中的新闻稿件可以是网易新闻稿件,当然,也可以是其他媒体的新闻稿件,在此不做具体限定。
在一个实施例中,对新闻稿件进行目标类别匹配包括对新闻稿件的标题进行目标类别的匹配。
本发明实施例中,提取新闻稿件的新闻标题的方式有多种,在此不做具体限定。
在一个实施例中,对新闻稿件进行目标类别匹配包括对新闻稿件的正文内容进行目标类别的匹配。
在一个实施例中,对新闻稿件进行目标类别匹配包括对新闻稿件的全文进行目标类别的匹配。在一个实施例中,对新闻稿件进行目标类别匹配包括先对新闻稿件的标题进行目标类别的匹配,若根据标题不能实现分类则继续对新闻稿件的正文内容进行目标类别的匹配。
在步骤200之后,还可以执行步骤210,其中计算所述匹配结果的分值,并判定所述分值满足预设条件时,将所述新闻稿件划分为所述匹配结果所对应的目标类别中。
在步骤210之后,还可以执行步骤220,其中基于所述新闻稿件和对应的目标类别训练分类模型;判定所述分值不满足所述预设条件时,基于所述分类模型将所述新闻稿件进行分类。
本发明实施例中,可选地,对新闻稿件进行目标类别匹配,得到匹配结果时,可以采用如下方式:
提取新闻稿件的新闻标题;以及
对所述新闻标题进行目标类别匹配,得到第一匹配结果;
计算所述匹配结果的分值,并判定所述分值满足预设条件时,将所述新闻稿件划分为所述匹配结果所对应的目标类别中时,可选地,可以采用如下方式:
计算所述第一匹配结果的第一分值,并判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。
本发明实施例中,对所述新闻标题进行目标类别匹配时,可以采用AC自动机算法实现,当然也可以采用其他方式,在此不再进行详述。
本发明实施例中,可选地,对所述新闻标题进行目标类别匹配,得到第一匹配结果时,可以采用如下方式:
对所述新闻标题进行地区名称匹配,得到至少一个地区名称。
例如,新闻标题为“北京房价与上海、深圳房价比较”,由于该新闻标题与3个地区名称相匹配,因此,得到3个地区名称。
需要说明的是,有些专有名词可能也包括地区名称,为了提高新闻分类的准确度,将这些专有名词中包括的地区名称不作为本发明中匹配得到的地区名称。
例如,“杭州路”、“上海大众”等专有名词不作为本发明中的地区名称。
本发明实施例中,可以存储包括地区名称的专有名词,例如,通过从公开的词典中抽取与地区名称有关的词得到。
计算所述第一匹配结果的第一分值,包括:
针对所述至少一个地区名称中的任意一地区名称,分别执行:
确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻标题中出现的次数;
将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第一初始分值;
确定所有第一初始分值中的最大值和次大值,所述次大值是指小于所述最大值,且大于所述所有第一初始分值中除所述最大值之外的所有剩余第一初始分值的第一初始分值;
将所述最大值除以所述次大值得到的比值,作为所述第一分值;
将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中,包括:
将所述新闻稿件划分为所有第一初始分值中的最大第一初始分值所对应的地区名称中。
本发明实施例中,地区名称可以分为三类,省级、市级和区级,如表1所示。
本发明实施例中,不同级别的地区名称对应的基本分值可以是不同的,例如,省级的地区名称对应的基本分值可以大于市级的地区名称对应的基本分值,市级的地区名称对应的基本分值可以大于区级的地区名称对应的基本分值。
本发明实施例中,判定所述第一分值满足第一预设条件时,可选地,可以采用如下方式:
判定所述第一分值大于或者等于1.5。
前面描述的是根据新闻标题对新闻进行分类的情况,在实际应用中,当第一分值不满足第一预设条件时,无法根据新闻标题进行分类,此时,进一步的,可以根据新闻正文内容对新闻进行分类,或者直接根据新闻正文内容对新闻进行分类,或者直接根据新闻的全文对新闻进行分类,其中根据新闻的全文对新闻进行分类可以采用与根据新闻标题对新闻进行分类一样的分类方法或与根据新闻正文内容对新闻进行分类一样的分类方法。在一实施例中,根据新闻正文内容对新闻进行分类的方法包括:
提取所述新闻稿件的新闻正文内容;
对所述新闻正文内容进行目标类别匹配,得到第二匹配结果;
计算所述第二匹配结果的第二分值,并判定所述第二分值满足第二预设条件时,将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中。
在一个实施例中,首先利用新闻稿件的新闻标题的第一匹配结果进行分类;如果无法根据新闻稿件的新闻标题对新闻稿件分类,接下来可以利用新闻稿件的新闻正文内容对新闻稿件进行分类,如图1B所示。
本发明实施例中,对所述新闻正文内容进行目标类别匹配,得到第二匹配结果时,可选地,可以采用如下方式:
对所述新闻正文内容进行地区名称匹配,得到至少一个地区名称;
计算所述第二匹配结果的第二分值时,可选地,可以采用如下方式:
针对所述至少一个地区名称中的任意一地区名称,分别执行:
确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻正文内容中出现的次数;
将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第二初始分值;
确定所有第二初始分值中的最大值和目标地区名称在所述新闻正文内容中出现的次数,所述目标地区名称为所述最大值所对应的地区名称;
将所述目标地区名称在所述新闻正文内容中出现的次数,减去剩余地区名称中的每一个剩余地区名称所对应的次数得到的值,作为所述第二分值;
其中:所述剩余地区名称为所述至少一个地区名称中除所述最大值所对应的地区名称之外的地区名称;
将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中时,可选地,可以采用如下方式:
将所述新闻稿件划分为所有第二初始分值中的最大第二初始分值所对应的地区名称中。
例如,新闻正文内容为“上周日,2015亚足联中国展望杭州项目精英联赛在大雨中打响。8支杭城业余足球队齐聚桐庐足球训练基地,他们将在这里展开为期三周的较量。活动由杭州市足球协会主办、杭州市足球管理中心承办,也是杭州市第34届西湖杯超级联赛的一部分。来观战的球迷,除了本地的足球爱好者,还包括来自宁波等地区的业余足球俱乐部代表”,得到的地区匹配名称为杭州和宁波。
本发明实施例中,判定所述第二分值满足第二预设条件的方式有多种,可选的,可以采用如下方式:
判定所述第二分值大于或者等于3。
例如,新闻正文内容为“上周日,2015亚足联中国展望杭州项目精英联赛在大雨中打响。8支杭城业余足球队齐聚桐庐足球训练基地,他们将在这里展开为期三周的较量。活动由杭州市足球协会主办、杭州市足球管理中心承办,也是杭州市第34届西湖杯超级联赛的一部分。来观战的球迷,除了本地的足球爱好者,还包括来自宁波等地区的业余足球俱乐部代表”,通过对上述正文内容进行匹配,得到的地区匹配名称为杭州和宁波,且“杭州”出现的次数为4次,“宁波”出现的次数为1次,则杭州的第一初始分值为10×4=40、宁波的第一初始分值为10×1=10,首先判定杭州的第一初始分值除以宁波的第一初始分值得到的值大于1.5;则将新闻稿件归类为杭州的本地新闻稿件。如果杭州的第一初始分值除以宁波的第一初始分值得到的值小于1.5的话,判断杭州出现的次数减去宁波出现的次数得到的值是否大于或者等于3;例如在上面的例子中,杭州出现的次数减去其宁波出现的次数是4-1=3;因此,将新闻稿件归类为杭州的本地新闻稿件。
本发明实施例中,基于所述新闻稿件和对应的目标类别训练分类模型时,可选地,可以采用如下方式:
获取训练语料,所述训练语料包括判定所述第一分值满足第一预设条件时的所述新闻稿件及其对应的地区名称,和/或判定所述第二分值满足第二预设条件时的所述新闻稿件及其对应的地区名称;以及
基于所述训练语料,得到所述分类模型。
本发明实施例中,基于所述训练语料,得到所述分类模型时,可选地可以采用如下方式:
采用向量空间模型及词频逆向文件词频TF-IDF算法,对所述训练语料中的每一篇新闻稿件提取关键词;
根据对应的稿件属性和关键词,将所述每一篇新闻稿件均编码成特征向量;
将编码为特征向量的训练语料进行特征选择和特征组合;
采用多分类逻辑斯蒂模型,将进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
本发明实施例中,基于所述分类模型将所述新闻稿件进行分类时,可选地,可以采用如下方式:
根据分类模型预测所述新闻稿件所属地区的概率;
判定所述概率大于阈值时,将所述新闻稿件作为所述所属地区的新闻稿件。
本发明实施例中,基于所述新闻稿件和对应的目标类别训练分类模型时,可选地,可以采用如下方式:
周期性地基于所述新闻稿件和对应的目标类别训练分类模型。
图1C为得到分类模型的主要过程:获取训练语料,对训练语料中的每一篇新闻稿件提取关键词,根据对应的稿件属性和关键词将每一篇新闻稿件编码成特征向量,然后,将编码为特征向量的训练语料进行特征选择和特征组合,接下来,进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
本发明实施例中,可以周期性地更新分类模型,例如一天一次。
本发明实施例中,稿件属性包括稿件的发稿媒体信息和/或发稿时间信息等。
本发明实施例中,如果新闻稿件无法根据分类模型进行分类的话,可以判定该新闻稿件无法分类。
图1D为根据分类模型对新闻稿件进行分类的流程示意图,根据分类模型预测新闻稿件所属地区及其概率,判断概率是否大于阈值,若是,将所述新闻稿件作为所述所属地区的新闻稿件,否则,认为稿件无法分类。
示例性设备
在介绍了本发明示例性实施方式的方法之后,接下来,参考图3、4分别对本发明示例性实施方式的、用于新闻分类的装置30、40进行描述,装置30包括提取单元300、匹配单元310、计算单元320、判断单元330和分类单元340,其中:
提取单元300,用于提取新闻稿件的新闻标题;
匹配单元310,用于对所述新闻标题进行目标类别匹配,得到第一匹配结果;
计算单元320,用于计算所述第一匹配结果的第一分值;
判断单元330,用于判断所述第一分值是否满足第一预设条件;
分类单元340,用于在所述判断单元330判定所述第一分值满足所述第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。
本发明实施例中的新闻稿件可以是网易新闻稿件,当然,也可以是其他媒体的新闻稿件,在此不做具体限定。
本发明实施例中,提取单元300提取新闻稿件的新闻标题的方式有多种,在此不做具体限定。
本发明实施例中,所述匹配单元310对所述新闻标题进行目标类别匹配,得到第一匹配结果时,具体为:
对所述新闻标题进行地区名称匹配,得到至少一个地区名称。
例如,新闻标题为“北京房价与上海、深圳房价比较”,由于该新闻标题与3个地区名称相匹配,因此,得到3个地区名称。
本发明实施例中,匹配单元310对所述新闻标题进行目标类别匹配时,可以采用AC自动机算法实现,当然也可以采用其他方式,在此不再进行详述。
需要说明的是,有些专有名词可能也包括地区名称,为了提高新闻分类的准确度,将这些专有名词中包括的地区名称不作为本发明中匹配得到的地区名称。
例如,“杭州路”、“上海大众”等专有名词不作为本发明中的地区名称。
本发明实施例中,可以存储包括地区名称的专有名词,例如,通过从公开的词典中抽取与地区名称有关的词得到。
本发明实施例中,可选地,所述计算单元320包括确定单元320A和乘积计算单元320B,其中:
所述确定单元320A,用于针对所述至少一个地区名称中的任意一地区名称,分别执行:确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻标题中出现的次数;
所述乘积计算单元320B,用于将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第一初始分值;
所述确定单元320A还用于,确定所有第一初始分值中的最大值和次大值,所述次大值是指小于所述最大值,且大于所述所有第一初始分值中除所述最大值之外的所有剩余第一初始分值的第一初始分值;
所述确定单元320A还用于,将所述最大值除以所述次大值得到的比值,作为所述第一分值;
所述分类单元340具体用于:将所述新闻稿件划分为所有第一初始分值中的最大第一初始分值所对应的地区名称中。
本发明实施例中,地区名称可以分为三类,省级、市级和区级,如表1所示。
本发明实施例中,不同级别的地区名称对应的基本分值可以是不同的,例如,省级的地区名称对应的基本分值可以大于市级的地区名称对应的基本分值,市级的地区名称对应的基本分值可以大于区级的地区名称对应的基本分值。
本发明实施例中,可选地,所述判断单元330判定所述第一分值满足第一预设条件时,具体为:
判定所述第一分值大于或者等于1.5。
例如,对一个新闻标题是“武汉、南京人在杭州的新杭州生活”,匹配到“武汉”、“南京”和“杭州”三个地名。假设该三个地名的基本分值都为10,则三个地名的初始分值分别为10、10和20。则其最大值是对应“杭州”的20,次大值为对应“武汉”或“南京”的10,最大值与次大值的比值为2,大于1.5,满足预设条件。则将新闻稿件划分到最大值对应的地名“杭州”的类别中。
除上述分类方法,还可以有其他任意的分类方法,如把出现次数作为第一分值,将新闻稿件归类至出现次数最多的地名中等。
前面描述的是根据新闻标题对新闻进行分类的情况,在实际应用中,当第一分值不满足第一预设条件时,无法根据新闻标题进行分类,此时,进一步的,可以根据新闻正文内容对新闻进行分类,因此,所述提取单元300还用于,提取所述新闻稿件的新闻正文内容;
所述匹配单元310还用于,对所述新闻正文内容进行目标类别匹配,得到第二匹配结果;
所述计算单元320还用于,计算所述第二匹配结果的第二分值;
所述判断单元330还用于,判断所述第二分值是否满足第二预设条件;
所述分类单元340还用于,在所述判断单元330判定所述第二分值满足第二预设条件时,将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中。
也就是说,分类单元340首先利用新闻稿件的新闻标题的第一匹配结果进行分类;如果无法根据新闻稿件的新闻标题对新闻稿件分类,接下来可以利用新闻稿件的新闻正文内容对新闻稿件进行分类。如图1B所示。
本发明实施例中,可选地,所述匹配单元310对所述新闻正文内容进行目标类别匹配,得到第二匹配结果时,具体为:
对所述新闻正文内容进行地区名称匹配,得到至少一个地区名称;
所述计算单元320包括确定单元320A和乘积计算单元320B,其中:
所述确定单元320A,用于针对所述至少一个地区名称中的任意一地区名称,分别执行:确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻正文内容中出现的次数;
所述乘积计算单元320B,用于将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第二初始分值;
所述确定单元320A还用于,确定所有第二初始分值中的最大值和目标地区名称在所述新闻正文内容中出现的次数,所述目标地区名称为所述最大值所对应的地区名称;
所述计算单元320还用于,将所述目标地区名称在所述新闻正文内容中出现的次数,减去剩余地区名称中的每一个剩余地区名称所对应的次数得到的值,作为所述第二分值;
其中,所述剩余地区名称为所述至少一个地区名称中除所述最大值所对应的地区名称之外的地区名称;
所述分类单元340具体用于:将所述新闻稿件划分为所有第二初始分值中的最大第二初始分值所对应的地区名称中。
例如,新闻正文内容为“上周日,2015亚足联中国展望杭州项目精英联赛在大雨中打响。8支杭城业余足球队齐聚桐庐足球训练基地,他们将在这里展开为期三周的较量。活动由杭州市足球协会主办、杭州市足球管理中心承办,也是杭州市第34届西湖杯超级联赛的一部分。来观战的球迷,除了本地的足球爱好者,还包括来自宁波等地区的业余足球俱乐部代表”,根据新闻正文内容得到的地区匹配名称为杭州和宁波。
本发明实施例中,可选地,所述判断单元330判定所述第二分值满足第二预设条件时,具体为:
判定所述第二分值大于或者等于3。
例如,新闻正文内容为“上周日,2015亚足联中国展望杭州项目精英联赛在大雨中打响。8支杭城业余足球队齐聚桐庐足球训练基地,他们将在这里展开为期三周的较量。活动由杭州市足球协会主办、杭州市足球管理中心承办,也是杭州市第34届西湖杯超级联赛的一部分。来观战的球迷,除了本地的足球爱好者,还包括来自宁波等地区的业余足球俱乐部代表”,通过对上述新闻正文内容进行匹配,得到的地区匹配名称为杭州和宁波,且“杭州”出现的次数为4次,“宁波”出现的次数为1次,则杭州的第一初始分值为10×4=40、宁波的第一初始分值为10×1=10,判断单元330首先判定杭州的第一初始分值除以宁波的第一初始分值得到的值大于1.5;分类单元340则将新闻稿件归类为杭州的本地新闻稿件。判断单元330如果杭州的第一初始分值除以宁波的第一初始分值得到的值小于1.5的话,判断杭州出现的次数减去宁波出现的次数得到的值是否大于或者等于3;例如在上面的例子中,杭州出现的次数减去其宁波出现的次数是4-1=3;因此,分类单元340将新闻稿件归类为杭州的本地新闻稿件。
上述提出的方法过程是自举的,无需任何人工投入,能实时处理大规模本地新闻归类请求,具有较高的效率和较好的时效性,满足互联网新闻类产品的功能需要。
前面描述的是分类单元340先根据新闻标题进行分类,若无法根据新闻标题进行分类时,接下来根据新闻正文内容进行分类,此时,如果根据新闻正文内容也无法进行分类时,可以根据分类模型进行分类,因此,本发明实施例中,进一步的,所述装置还包括算法单元350,用于根据分类模型预测所述新闻稿件所属地区的概率;在判定所述概率大于阈值时,将所述新闻稿件作为所述所属地区的新闻稿件。
本发明实施例中,可选地,所述算法单元350包括获取单元350A和训练单元350B,其中:
所述获取单元350A,用于获取训练语料,所述训练语料包括判定所述第一分值满足第一预设条件时的所述新闻稿件及其对应的地区名称,和/或判定所述第二分值满足第二预设条件时的所述新闻稿件及其对应的地区名称;
所述训练单元350B,用于基于所述训练语料,得到所述分类模型。
需要说明的是,根据分类模型预测所述新闻稿件所属地区的概率的步骤与获取训练语料并基于训练语料得到分类模型的步骤是根据各自的需求并行进行的。
本发明实施例中,可选地,所述算法单元350还包括编码单元350C和特征处理单元350D,其中:
所述提取单元300还用于,采用向量空间模型及词频逆向文件词频TF-IDF算法,对所述训练语料中的每一篇新闻稿件提取关键词;
所述编码单元350C还用于,根据对应的稿件属性和关键词,将所述每一篇新闻稿件均编码成特征向量;
所述特征处理单元350D,用于将编码为特征向量的训练语料进行特征选择和特征组合;
所述训练单元350B还用于,采用多分类逻辑斯蒂模型,将进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
图1C为根据一实施例的得到分类模型的主要过程:获取单元350A获取训练语料,提取单元300对训练语料中的每一篇新闻稿件提取关键词,编码单元350C根据对应的稿件属性和关键词将每一篇新闻稿件编码成特征向量,然后,特征处理单元350D将编码为特征向量的训练语料进行特征选择和特征组合,接下来,训练单元350B进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
本发明实施例中,可以周期性地更新分类模型,例如一天一次。
本发明实施例中,稿件属性包括稿件的发稿媒体信息和/或发稿时间信息等。
本发明实施例中,如果分类单元340也无法对新闻稿件根据分类模型进行分类的话,可以判定该新闻稿件无法分类。
图1D为根据分类模型对新闻稿件进行分类的流程示意图,根据分类模型预测新闻稿件所属地区及其概率,判断概率是否大于阈值,若是,将所述新闻稿件作为所述所属地区的新闻稿件,否则,认为稿件无法分类。
上述方案首先使用评分规则自举归类出准确率高的本地新闻稿件,然后由有监督的机器学习算法基于这部分稿件训练分类模型,对其他新闻稿件进行补充归类,实现无需人工投入,能实时处理大规模本地新闻归类请求,满足互联网新闻类产品的功能需要。
参阅图4所示,装置40包括匹配单元400、计算单元410、判断单元420、分类单元430和算法单元440,其中:
匹配单元400,用于对新闻稿件进行目标类别匹配,得到匹配结果;
计算单元410,用于计算所述匹配结果的分值;
判断单元420,用于判断所述分值是否满足预设条件;
分类单元430,用于在所述判断单元420判定所述分值满足预设条件时,将所述新闻稿件划分为所述匹配结果所对应的目标类别中;
算法单元440,用于基于所述新闻稿件和对应的目标类别训练分类模型;
所述分类单元430还用于,在所述判断单元420判定所述分值不满足所述预设条件时,基于所述分类模型将所述新闻稿件进行分类
本发明实施例中的新闻稿件可以是网易新闻稿件,当然,也可以是其他媒体的新闻稿件,在此不做具体限定。
在一个实施例中,匹配单元400对新闻稿件进行目标类别匹配包括对新闻稿件的标题进行目标类别的匹配。
本发明实施例中,提取新闻稿件的新闻标题的方式有多种,在此不做具体限定。
在一个实施例中,匹配单元400对新闻稿件进行目标类别匹配包括对新闻稿件的正文内容进行目标类别的匹配。
在一个实施例中,匹配单元400对新闻稿件进行目标类别匹配包括对新闻稿件的全文进行目标类别的匹配。
在一个实施例中,匹配单元400对新闻稿件进行目标类别匹配包括先对新闻稿件的标题进行目标类别的匹配,若根据标题不能实现分类则继续对新闻稿件的正文内容进行目标类别的匹配。
本发明实施例中,可选地,所述装置还包括提取单元450,用于提取新闻稿件的新闻标题;
所述匹配单元400具体用于,对所述新闻标题进行目标类别匹配,得到第一匹配结果;
所述计算单元410具体用于,计算所述第一匹配结果的第一分值;
所述分类单元430具体用于,在所述判断单元420判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。
本发明实施例中,匹配单元400对所述新闻标题进行目标类别匹配时,可以采用AC自动机算法实现,当然也可以采用其他方式,在此不再进行详述。
本发明实施例中,可选地,所述匹配单元400对所述新闻标题进行目标类别匹配,得到第一匹配结果时,具体为:
对所述新闻标题进行地区名称匹配,得到至少一个地区名称。
例如,新闻标题为“北京房价与上海、深圳房价比较”,由于该新闻标题与3个地区名称相匹配,因此,得到3个地区名称。
需要说明的是,有些专有名词可能也包括地区名称,为了提高新闻分类的准确度,将这些专有名词中包括的地区名称不作为本发明中匹配得到的地区名称。
例如,“杭州路”、“上海大众”等专有名词不作为本发明中的地区名称。
本发明实施例中,可以存储包括地区名称的专有名词,例如,通过从公开的词典中抽取与地区名称有关的词得到。
所述计算单元410包括确定单元410A和乘积计算单元410B,其中:
所述确定单元410A,用于针对所述至少一个地区名称中的任意一地区名称,分别执行:确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻标题中出现的次数;
所述乘积计算单元410B,用于将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第一初始分值;
所述确定单元410A还用于,确定所有第一初始分值中的最大值和次大值,所述次大值是指小于所述最大值,且大于所述所有第一初始分值中除所述最大值之外的所有剩余第一初始分值的第一初始分值;
所述确定单元410A还用于,将所述最大值除以所述次大值得到的比值,作为所述第一分值;
所述分类单元430具体用于:将所述新闻稿件划分为所有第一初始分值中的最大第一初始分值所对应的地区名称中。
本发明实施例中,地区名称可以分为三类,省级、市级和区级,如表1所示。
本发明实施例中,不同级别的地区名称对应的基本分值可以是不同的,例如,省级的地区名称对应的基本分值可以大于市级的地区名称对应的基本分值,市级的地区名称对应的基本分值可以大于区级的地区名称对应的基本分值。
本发明实施例中,所述判断单元420判定所述第一分值满足第一预设条件时,可选地,可以采用如下方式:
判定所述第一分值大于或者等于1.5。
前面描述的是根据新闻标题对新闻进行分类的情况,在实际应用中,当第一分值不满足第一预设条件时,无法根据新闻标题进行分类,此时,进一步的,直接根据新闻正文内容对新闻进行分类,或者直接根据新闻的全文对新闻进行分类,其中根据新闻的全文对新闻进行分类可以采用与根据新闻标题对新闻进行分类一样的分类方法或与根据新闻正文内容对新闻进行分类一样的分类方法。在一实施例中,所述提取单元450还用于,提取所述新闻稿件的新闻正文内容;
所述匹配单元400还用于,对所述新闻正文内容进行目标类别匹配,得到第二匹配结果;
所述计算单元410还用于,计算所述第二匹配结果的第二分值;
所述判断单元420还用于,判断所述第二分值是否满足第二预设条件;
所述分类单元430还用于,在所述判断单元420判定所述第二分值满足第二预设条件时,将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中。
在一个实施例中,首先利用新闻稿件的新闻标题的第一匹配结果进行分类;如果无法根据新闻稿件的新闻标题对新闻稿件分类,接下来可以利用新闻稿件的新闻正文内容对新闻稿件进行分类,如图1B所示。
本发明实施例中,可选地,所述匹配单元400对所述新闻正文内容进行目标类别匹配,得到第二匹配结果时,具体为:
对所述新闻正文内容进行地区名称匹配,得到至少一个地区名称;
所述计算单元410包括确定单元410A和乘积计算单元410B,其中:
所述确定单元410A,用于针对所述至少一个地区名称中的任意一地区名称,分别执行:确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻正文内容中出现的次数;
所述乘积计算单元410B,用于将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第二初始分值;
所述确定单元410A还用于,确定所有第二初始分值中的最大值和目标地区名称在所述新闻正文内容中出现的次数,所述目标地区名称为所述最大值所对应的地区名称;
所述计算单元410还用于,将所述目标地区名称在所述新闻正文内容中出现的次数,减去剩余地区名称中的每一个剩余地区名称所对应的次数得到的值,作为所述第二分值;
其中,所述剩余地区名称为所述至少一个地区名称中除所述最大值所对应的地区名称之外的地区名称;
所述分类单元430具体用于:将所述新闻稿件划分为所有第二初始分值中的最大第二初始分值所对应的地区名称中。
例如,新闻正文内容为“上周日,2015亚足联中国展望杭州项目精英联赛在大雨中打响。8支杭城业余足球队齐聚桐庐足球训练基地,他们将在这里展开为期三周的较量。活动由杭州市足球协会主办、杭州市足球管理中心承办,也是杭州市第34届西湖杯超级联赛的一部分。来观战的球迷,除了本地的足球爱好者,还包括来自宁波等地区的业余足球俱乐部代表”,得到的地区匹配名称为杭州和宁波。
本发明实施例中,判断单元420判定所述第二分值满足第二预设条件的方式有多种,可选的,可以采用如下方式:
判定所述第二分值大于或者等于3。
例如,新闻正文内容为“上周日,2015亚足联中国展望杭州项目精英联赛在大雨中打响。8支杭城业余足球队齐聚桐庐足球训练基地,他们将在这里展开为期三周的较量。活动由杭州市足球协会主办、杭州市足球管理中心承办,也是杭州市第34届西湖杯超级联赛的一部分。来观战的球迷,除了本地的足球爱好者,还包括来自宁波等地区的业余足球俱乐部代表”,通过对上述正文内容进行匹配,得到的地区匹配名称为杭州和宁波,且“杭州”出现的次数为4次,“宁波”出现的次数为1次,则杭州的第一初始分值为10×4=40、宁波的第一初始分值为10×1=10,首先判定杭州的第一初始分值除以宁波的第一初始分值得到的值大于1.5;则将新闻稿件归类为杭州的本地新闻稿件。如果杭州的第一初始分值除以宁波的第一初始分值得到的值小于1.5的话,判断杭州出现的次数减去宁波出现的次数得到的值是否大于或者等于3;例如在上面的例子中,杭州出现的次数减去其宁波出现的次数是4-1=3;因此,将新闻稿件归类为杭州的本地新闻稿件。
本发明实施例中,可选地,所述算法单元440包括获取单元440A和训练单元440B,其中:
所述获取单元440A,用于获取训练语料,所述训练语料包括判定所述第一分值满足第一预设条件时的所述新闻稿件及其对应的地区名称,和/或判定所述第二分值满足第二预设条件时的所述新闻稿件及其对应的地区名称;以及
所述训练单元440B,用于基于所述训练语料,得到所述分类模型。
本发明实施例中,可选地,所述算法单元440还包括编码单元440C和特征处理单元440D,其中:
所述提取单元450还用于,采用向量空间模型及词频逆向文件词频TF-IDF算法,对所述训练语料中的每一篇新闻稿件提取关键词;
所述编码单元440C,用于根据对应的稿件属性和关键词,将所述每一篇新闻稿件均编码成特征向量;
所述特征处理单元440D,用于将编码为特征向量的训练语料进行特征选择和特征组合;
所述训练单元440B,用于采用多分类逻辑斯蒂模型,将进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
本发明实施例中,可选地,所述算法单元440具体用于,根据分类模型预测所述新闻稿件所属地区的概率;在判定所述概率大于阈值时,将所述新闻稿件作为所述所属地区的新闻稿件。
本发明实施例中,可选地,所述算法单元440具体用于,周期性地基于所述新闻稿件和对应的目标类别训练分类模型。
图1C为得到分类模型的主要过程:获取单元440A获取训练语料,提取单元450对训练语料中的每一篇新闻稿件提取关键词,编码单元440C根据对应的稿件属性和关键词将每一篇新闻稿件编码成特征向量,然后,特征处理单元440D将编码为特征向量的训练语料进行特征选择和特征组合,接下来,训练单元440B进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
本发明实施例中,可以周期性地更新分类模型,例如一天一次。
本发明实施例中,稿件属性包括稿件的发稿媒体信息和/或发稿时间信息等。
本发明实施例中,如果新闻稿件无法根据分类模型进行分类的话,可以判定该新闻稿件无法分类。
图1D为根据分类模型对新闻稿件进行分类的流程示意图,根据分类模型预测新闻稿件所属地区及其概率,判断概率是否大于阈值,若是,将所述新闻稿件作为所述所属地区的新闻稿件,否则,认为稿件无法分类。
示例性设备
在介绍了本发明示例性实施方式的方法和装置之后,接下来,介绍根据本发明的另一示例性实施方式的用于新闻分类的装置。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
在一些可能的实施方式中,根据本发明的用于新闻分类的装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于新闻分类方法中的步骤。例如,所述处理单元可以执行如图1A中所示的步骤100:提取新闻稿件的新闻标题;步骤110:对所述新闻标题进行目标类别匹配,得到第一匹配结果;步骤120:计算所述第一匹配结果的第一分值,并判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。又例如,所述处理单元可以执行如图2中所示的步骤200:对新闻稿件进行目标类别匹配,得到匹配结果;步骤210:计算所述匹配结果的分值,并判定所述分值满足预设条件时,将所述新闻稿件划分为所述匹配结果所对应的目标类别中;步骤220:基于所述新闻稿件和对应的目标类别训练分类模型;判定所述分值不满足所述预设条件时,基于所述分类模型将所述新闻稿件进行分类。
下面参照图5来描述根据本发明的这种实施方式的用于保新闻分类的装置50。图5显示的用于新闻分类的装置50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,用于新闻分类的装置50以通用计算设备的形式表现。用于新闻分类的装置50的组件可以包括但不限于:上述至少一个处理单元516、上述至少一个存储单元528、连接不同***组件(包括存储单元528和处理单元516)的总线518。
总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、***总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元528可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)530和/或高速缓存存储器532,还可以进一步只读存储器(ROM)534。
存储单元528还可以包括具有一组(至少一个)程序模块542的程序/实用工具540,这样的程序模块542包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
用于新闻分类的装置50也可以与一个或多个外部设备514(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该用于新闻分类的装置50交互的设备通信,和/或与使得该用于新闻分类的装置50能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且,用于新闻分类的装置50还可以通过网络适配器520与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器520通过总线518与用于新闻分类的装置50的其它模块通信。应当明白,尽管图中未示出,可以结合用于新闻分类的装置50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
示例性程序产品
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于新闻分类的方法中的步骤,例如,所述终端设备可以执行如图1A中所示的步骤100:提取新闻稿件的新闻标题;步骤110:对所述新闻标题进行目标类别匹配,得到第一匹配结果;步骤120:计算所述第一匹配结果的第一分值,并判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。又例如,所述处理单元可以执行如图2中所示的步骤200:对新闻稿件进行目标类别匹配,得到匹配结果;步骤210:计算所述匹配结果的分值,并判定所述分值满足预设条件时,将所述新闻稿件划分为所述匹配结果所对应的目标类别中;步骤220:基于所述新闻稿件和对应的目标类别训练分类模型;判定所述分值不满足所述预设条件时,基于所述分类模型将所述新闻稿件进行分类。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图6所示,描述了根据本发明的实施方式的用于新闻分类的程序产品60,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于新闻分类的设备的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种新闻分类的方法,包括:
提取新闻稿件的新闻标题;
对所述新闻标题进行目标类别匹配,得到第一匹配结果;
计算所述第一匹配结果的第一分值,并判定所述第一分值满足第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。
2.如权利要求1所述的方法,对所述新闻标题进行目标类别匹配,得到第一匹配结果,包括:
对所述新闻标题进行地区名称匹配,得到至少一个地区名称;
计算所述第一匹配结果的第一分值,包括:
针对所述至少一个地区名称中的任意一地区名称,分别执行:
确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻标题中出现的次数;
将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第一初始分值;
确定所有第一初始分值中的最大值和次大值,所述次大值是指小于所述最大值,且大于所述所有第一初始分值中除所述最大值之外的所有剩余第一初始分值的第一初始分值;
将所述最大值除以所述次大值得到的比值,作为所述第一分值;
将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中,包括:
将所述新闻稿件划分为所有第一初始分值中的最大第一初始分值所对应的地区名称中。
3.如权利要求1所述的方法,若判定所述第一分值不满足所述第一预设条件,所述方法还包括:
提取所述新闻稿件的新闻正文内容;
对所述新闻正文内容进行目标类别匹配,得到第二匹配结果;
计算所述第二匹配结果的第二分值,并判定所述第二分值满足第二预设条件时,将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中。
4.如权利要求3所述的方法,对所述新闻正文内容进行目标类别匹配,得到第二匹配结果,包括:
对所述新闻正文内容进行地区名称匹配,得到至少一个地区名称;
计算所述第二匹配结果的第二分值,包括:
针对所述至少一个地区名称中的任意一地区名称,分别执行:
确定所述任意一地区名称对应的基本分值,及所述任意一地区名称在所述新闻正文内容中出现的次数;
将所述基本分值和所述次数的乘积,作为与所述任意一地区名称对应的第二初始分值;
确定所有第二初始分值中的最大值和目标地区名称在所述新闻正文内容中出现的次数,所述目标地区名称为所述最大值所对应的地区名称;
将所述目标地区名称在所述新闻正文内容中出现的次数,减去剩余地区名称中的每一个剩余地区名称所对应的次数得到的值,作为所述第二分值;
其中:所述剩余地区名称为所述至少一个地区名称中除所述最大值所对应的地区名称之外的地区名称;
将所述新闻稿件划分为所述第二匹配结果所对应的目标类别中,包括:
将所述新闻稿件划分为所有第二初始分值中的最大第二初始分值所对应的地区名称中。
5.如权利要求3所述的方法,判定所述第二分值不满足所述第二预设条件之后,所述方法还包括:
根据分类模型预测所述新闻稿件所属地区的概率;
判定所述概率大于阈值时,将所述新闻稿件作为所述所属地区的新闻稿件。
6.如权利要求5所述的方法,根据分类模型预测所述新闻稿件所属地区的概率之前,所述方法还包括:
获取训练语料,所述训练语料包括判定所述第一分值满足第一预设条件时的所述新闻稿件及其对应的地区名称,和/或判定所述第二分值满足第二预设条件时的所述新闻稿件及其对应的地区名称;以及
基于所述训练语料,得到所述分类模型。
7.如权利要求6所述的方法,基于所述训练语料,得到所述分类模型,包括:
采用向量空间模型及词频逆向文件词频TF-IDF算法,对所述训练语料中的每一篇新闻稿件提取关键词;
根据对应的稿件属性和关键词,将所述每一篇新闻稿件均编码成特征向量;
将编码为特征向量的训练语料进行特征选择和特征组合;
采用多分类逻辑斯蒂模型,将进行特征选择和特征组合后的训练语料进行训练,得到所述分类模型。
8.一种新闻分类的装置,包括:
提取单元,用于提取新闻稿件的新闻标题;
匹配单元,用于对所述新闻标题进行目标类别匹配,得到第一匹配结果;
计算单元,用于计算所述第一匹配结果的第一分值;
判断单元,用于判断所述第一分值是否满足第一预设条件;
分类单元,用于在所述判断单元判定所述第一分值满足所述第一预设条件时,将所述新闻稿件划分为所述第一匹配结果所对应的目标类别中。
9.一种新闻分类的方法,包括:
对新闻稿件进行目标类别匹配,得到匹配结果;
计算所述匹配结果的分值,并判定所述分值满足预设条件时,将所述新闻稿件划分为所述匹配结果所对应的目标类别中;
基于所述新闻稿件和对应的目标类别训练分类模型;判定所述分值不满足所述预设条件时,基于所述分类模型将所述新闻稿件进行分类。
所述训练预料,得到所基于所述训练预料。
10.一种新闻分类的装置,包括:
匹配单元,用于对新闻稿件进行目标类别匹配,得到匹配结果;
计算单元,用于计算所述匹配结果的分值;
判断单元,用于判断所述分值是否满足预设条件;
分类单元,用于在所述判断单元判定所述分值满足预设条件时,将所述新闻稿件划分为所述匹配结果所对应的目标类别中;
算法单元,用于基于所述新闻稿件和对应的目标类别训练分类模型;
所述分类单元还用于,在所述判断单元判定所述分值不满足所述预设条件时,基于所述分类模型将所述新闻稿件进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610115723.5A CN105760526B (zh) | 2016-03-01 | 2016-03-01 | 一种新闻分类的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610115723.5A CN105760526B (zh) | 2016-03-01 | 2016-03-01 | 一种新闻分类的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105760526A true CN105760526A (zh) | 2016-07-13 |
CN105760526B CN105760526B (zh) | 2019-05-07 |
Family
ID=56332195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610115723.5A Active CN105760526B (zh) | 2016-03-01 | 2016-03-01 | 一种新闻分类的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105760526B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202057A (zh) * | 2016-08-30 | 2016-12-07 | 东软集团股份有限公司 | 相似新闻信息的识别方法和装置 |
CN106503266A (zh) * | 2016-11-30 | 2017-03-15 | 政和科技股份有限公司 | 文档分类方法及装置 |
CN107889068A (zh) * | 2017-12-11 | 2018-04-06 | 成都欧督***科技有限公司 | 基于无线通信的消息广播控制方法 |
CN108090201A (zh) * | 2017-12-20 | 2018-05-29 | 珠海市君天电子科技有限公司 | 一种文章内容分类的方法、装置及电子设备 |
CN108090099A (zh) * | 2016-11-22 | 2018-05-29 | 科大讯飞股份有限公司 | 一种文本处理方法及装置 |
CN109816134A (zh) * | 2017-11-22 | 2019-05-28 | 北京京东尚科信息技术有限公司 | 收货地址预测方法、装置以及存储介质 |
CN110674290A (zh) * | 2019-08-09 | 2020-01-10 | 国家计算机网络与信息安全管理中心 | 一种用于重叠社区发现的关系预测方法、装置和存储介质 |
CN110750697A (zh) * | 2019-10-30 | 2020-02-04 | 汉海信息技术(上海)有限公司 | 商户分类方法、装置、设备及存储介质 |
CN111209390A (zh) * | 2020-01-06 | 2020-05-29 | 北大方正集团有限公司 | 新闻展示方法和***、计算机可读存储介质 |
CN111324735A (zh) * | 2020-02-20 | 2020-06-23 | 湖南芒果听见科技有限公司 | 一种时政要闻自动分类方法及其终端 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN104346411A (zh) * | 2013-08-09 | 2015-02-11 | 北大方正集团有限公司 | 对多个稿件进行聚类的方法和设备 |
CN104424308A (zh) * | 2013-09-04 | 2015-03-18 | 中兴通讯股份有限公司 | 网页分类标准获取方法、装置及网页分类方法、装置 |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
-
2016
- 2016-03-01 CN CN201610115723.5A patent/CN105760526B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174273A (zh) * | 2007-12-04 | 2008-05-07 | 清华大学 | 基于元数据分析的新闻事件检测方法 |
CN104346411A (zh) * | 2013-08-09 | 2015-02-11 | 北大方正集团有限公司 | 对多个稿件进行聚类的方法和设备 |
CN104424308A (zh) * | 2013-09-04 | 2015-03-18 | 中兴通讯股份有限公司 | 网页分类标准获取方法、装置及网页分类方法、装置 |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202057A (zh) * | 2016-08-30 | 2016-12-07 | 东软集团股份有限公司 | 相似新闻信息的识别方法和装置 |
CN106202057B (zh) * | 2016-08-30 | 2019-07-12 | 东软集团股份有限公司 | 相似新闻信息的识别方法和装置 |
CN108090099A (zh) * | 2016-11-22 | 2018-05-29 | 科大讯飞股份有限公司 | 一种文本处理方法及装置 |
CN108090099B (zh) * | 2016-11-22 | 2022-02-25 | 科大讯飞股份有限公司 | 一种文本处理方法及装置 |
CN106503266A (zh) * | 2016-11-30 | 2017-03-15 | 政和科技股份有限公司 | 文档分类方法及装置 |
CN109816134B (zh) * | 2017-11-22 | 2021-07-20 | 北京京东尚科信息技术有限公司 | 收货地址预测方法、装置以及存储介质 |
CN109816134A (zh) * | 2017-11-22 | 2019-05-28 | 北京京东尚科信息技术有限公司 | 收货地址预测方法、装置以及存储介质 |
CN107889068A (zh) * | 2017-12-11 | 2018-04-06 | 成都欧督***科技有限公司 | 基于无线通信的消息广播控制方法 |
CN108090201A (zh) * | 2017-12-20 | 2018-05-29 | 珠海市君天电子科技有限公司 | 一种文章内容分类的方法、装置及电子设备 |
CN110674290A (zh) * | 2019-08-09 | 2020-01-10 | 国家计算机网络与信息安全管理中心 | 一种用于重叠社区发现的关系预测方法、装置和存储介质 |
CN110674290B (zh) * | 2019-08-09 | 2023-03-10 | 国家计算机网络与信息安全管理中心 | 一种用于重叠社区发现的关系预测方法、装置和存储介质 |
CN110750697A (zh) * | 2019-10-30 | 2020-02-04 | 汉海信息技术(上海)有限公司 | 商户分类方法、装置、设备及存储介质 |
CN111209390A (zh) * | 2020-01-06 | 2020-05-29 | 北大方正集团有限公司 | 新闻展示方法和***、计算机可读存储介质 |
CN111209390B (zh) * | 2020-01-06 | 2023-09-05 | 新方正控股发展有限责任公司 | 新闻展示方法和***、计算机可读存储介质 |
CN111324735A (zh) * | 2020-02-20 | 2020-06-23 | 湖南芒果听见科技有限公司 | 一种时政要闻自动分类方法及其终端 |
Also Published As
Publication number | Publication date |
---|---|
CN105760526B (zh) | 2019-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760526A (zh) | 一种新闻分类的方法和装置 | |
CN106547871B (zh) | 基于神经网络的搜索结果的召回方法和装置 | |
CN102902821B (zh) | 基于网络热点话题的图像高级语义标注、检索方法及装置 | |
CN107657048B (zh) | 用户识别方法及装置 | |
CN106815244B (zh) | 文本向量表示方法及装置 | |
Chen et al. | Velda: Relating an image tweet’s text and images | |
JP6428795B2 (ja) | モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体 | |
CN110390094B (zh) | 对文档进行分类的方法、电子设备和计算机程序产品 | |
CN109492081B (zh) | 文本信息搜索和信息交互方法、装置、设备及存储介质 | |
CN109902823B (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
CN111159404B (zh) | 文本的分类方法及装置 | |
CN108268540A (zh) | 一种基于视频相似度的视频推荐方法、***及终端 | |
CN110472016B (zh) | 文章推荐方法、装置、电子设备及存储介质 | |
CN103544307B (zh) | 一种不依赖文档库的多搜索引擎自动化对比评测方法 | |
CN101853297A (zh) | 一种在电子设备中快速获得期望图像的方法 | |
CN112395487A (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
CN111125491A (zh) | 商品信息的搜索方法和装置、存储介质及电子装置 | |
Wang et al. | 3D model retrieval with weighted locality-constrained group sparse coding | |
US9875386B2 (en) | System and method for randomized point set geometry verification for image identification | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN110162769B (zh) | 文本主题输出方法和装置、存储介质及电子装置 | |
KR101273646B1 (ko) | 멀티 모달리티 데이터 색인 및 검색 방법, 그 시스템 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN110348581B (zh) | 用户特征群中用户特征寻优方法、装置、介质及电子设备 | |
CN112148994A (zh) | 信息推送效果评估方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |