CN110704610A - 体育新闻战报主题分类方法 - Google Patents

体育新闻战报主题分类方法 Download PDF

Info

Publication number
CN110704610A
CN110704610A CN201910404983.8A CN201910404983A CN110704610A CN 110704610 A CN110704610 A CN 110704610A CN 201910404983 A CN201910404983 A CN 201910404983A CN 110704610 A CN110704610 A CN 110704610A
Authority
CN
China
Prior art keywords
sports news
marking
data
team
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910404983.8A
Other languages
English (en)
Inventor
吕学强
游新冬
张乐
孙少奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201910404983.8A priority Critical patent/CN110704610A/zh
Publication of CN110704610A publication Critical patent/CN110704610A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种体育新闻战报主题分类方法,包括:步骤1)对语料进行预处理;步骤2)对语料进行人工标注;步骤3)对语料进行交叉验证;步骤4)选取类别特征对句子主题进行分类。步骤2)包括:首先制定标注规则,完全按照类别定义进行标注,并对语料标注者进行集中沟通,并确认是否完全理解类别信息,然后将语料平均分给多个人进行标注。本发明提出的方法对句子主题分类十分有效,准确率高,具有较好的召回率和F值,可用于为领域模板库构建提供支持,可以很好地满足实际应用的需要。

Description

体育新闻战报主题分类方法
技术领域
本发明属于计算机智能写作技术领域,具体涉及一种体育新闻战报主题分 类方法。
背景技术
智能写作在工业界现已引起高度的重视,根据体育赛事实时数据自动撰写 新闻稿件,以跟电视直播几乎同时的速度发布稿件,利用计算机代替人工写作 已成为一种趋势,体育新闻智能写作已成为21世纪重要的研究方向之一。体育 新闻战报主题分类是体育新闻智能写作领域的一项重要技术,是利用体育赛事 直播数据生成新闻报道的一项不可或缺的技术手段之一。现有技术中,体育新 闻战报主题分类结果准确率低,召回率和F值也不佳,远远不能满足实际应用 的需要,现在亟待研发一种准确率、召回率和F值较好的体育新闻战报主题分 类方法。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现 上述技术缺陷的体育新闻战报主题分类方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种体育新闻战报主题分类方法,包括:步骤1)对语料进行预处理;步 骤2)对语料进行人工标注;步骤3)对语料进行交叉验证;步骤4)选取类别 特征对句子主题进行分类。
进一步地,步骤1)包括:利用机器自动去掉背景介绍信息,然后以句号 为切分,将语料切分为以句子为单位的语料。
进一步地,步骤2)包括:首先制定标注规则,完全按照类别定义进行标 注,并对语料标注者进行集中沟通,并确认是否完全理解类别信息,然后将语 料平均分给多个人进行标注。
进一步地,所述类别定义包括结构类别和内容类别,结构类别是指每节比 赛的开局、局中、局尾,内容类别是指比赛过程中反应出的事实主题。
进一步地,开局定义为:每节比赛开始,第一句话,每节比赛的前2分钟 左右,表现形式为:领先、落后、平局;
局中定义为:比赛的过程中,比分不停变化,每节比赛的2-11分钟左右, 表现形式为:领先、落后、平局;
局尾定义为:比赛的最后一次进球,每节比赛的最后1分钟左右,如果最 后一分钟内有多次进球,则以最后一次为准,表现形式:领先、落后、平局;
内容类别的事实主题包括:扩大比分、小高潮、稳定比分、最大分差;得 分荒、缩小比分、双方打平、双方对飚、双方打铁、交替领先。
进一步地,步骤3)包括:采用交叉校验方式,对数据进行多轮校验,并 将校验标注数据与原始数据进行对比,将存在问题的数据进行统一整理并进行 讨论,最终确认标注结果。
进一步地,步骤4)包括:分别使用TF-IDF算法、布尔权重法,对体育新 闻战报句子进行主题分类。
进一步地,使用互信息MI、信息增益IG、卡方CHI、加权对数似然比方法 WLLR进行特征词的提取,并对四种情况下的结果取交集、并集分别进行测试。
进一步地,步骤1)包括:对数据进行分词,构造新词表,构造停用词表, 使词项更加符合体育新闻的规则,并去除无用的词汇;把比分进行处理,将不 同的比分转换为对应的词语。
进一步地,所述步骤2)包括:将体育新闻战报中报道的每一个句子提取 出来,从结构和内容上对数据进行标注,并且以\t进行分割。
本发明提供的体育新闻战报主题分类方法,对战报数据进行分类,首先是 对数据进行预处理,提取标注数据,其次对提取的句子进行人工标注,并进行 交叉验证,最后选取类别特征对句子主题进行分类,实验结果表明本发明提出 的方法对句子主题分类十分有效,准确率高,具有较好的召回率和F值,可用 于为领域模板库构建提供支持,可以很好地满足实际应用的需要。
附图说明
图1为本发明的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具 体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以 解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保 护的范围。
如图1所示,一种体育新闻战报主题分类方法,包括:首先对数据进行预 处理,提取待标注数据,然后对提取的句子进行人工标注,并进行交叉验证, 最后选取类别特征对句子主题进行分类。
主题类别的划分:
通过对NBA体育新闻战报阅读发现,从结构上可以大致分为3部分,如:每 节比赛的开局、局中、局尾。从比赛的内容上可以大致分为10个主题,如:扩 大比分、小高潮、稳定比分、最大分差;得分荒、缩小比分、双方打平、双方 对飚、双方打铁、交替领先等。为了能够得到更多的用户的写作主题模板,本 发明需要对已完成的战报文章进行分类。
本发明从结构上和内容上分别对各主题做了如下定义:1)结构类别
结构类别主要是指每节比赛的开局、局中、局尾,具体定义如下:
定义1.1开局:每节比赛开始,通常为第一句话。从时间角度考虑每节比 赛的前2分钟左右,一般情况第一节比赛通常含有开局,二三四节比赛不一 定有。表现形式为:领先、落后、平局。
定义1.2局中:比赛的过程中,比分在不停的变化。从时间角度考虑每节 比赛的2-11分钟左右。表现形式:领先、落后、平局。
定义1.3局尾:通常为比赛的最后一次进球,如压哨球,巨星表现等。从 时间角度考虑每节比赛的最后1分钟左右,如果最后一分钟内有多次进球, 则以最后一次为准。表现形式:领先、落后、平局。2)内容类别
为了能够更好的理解编辑的写作行为,本发明需要对各主题进行定义。内容 类别主要是指比赛过程中反应出的事实主题,它是随着比赛的时间以及球员、 球队的表现在不停的变化。主题基本固定分为10个主题,扩大比分、小高潮、 稳定比分、最大分差;得分荒、缩小比分、双方打平、双方对飚、双方打铁、 交替领先等,但是表现形式多种多样,如表1.1所示。
定义1.4扩大分差:A队在T1时间点领先B队S分,经过T2-T1时间段A 队没有被B队连续追分,并且在T2时间点,A队领先B队的分数>S分,则 称此A队在T2-T1时间段内扩大分差。
定义1.5小高潮:A队在T1时间点领先B队S分(或落后S分),经过T2 -T1时间段A队连续得分且=>8分,B队不得分或者得分<=3分,则称此A 队在T2-T1时间段内打出小高潮。
定义1.6稳定比分:A队在T1时间点领先B队S分,经过T2-T1时间段A 队领先B的分数<S,经过暂停或球员自己调试,在T3-T2时间段A队又领B 队等于S分,则称此A队在T3-T2时间段内稳定比分。
定义1.7最大分差:A队在T1时间点领先B队S分,经过T2-T1, T3-T2,…Tn+1-Tn时间段A队领先B的分数<=S,则称此A队在T1时间点为 本场比赛的最大分差。
定义1.8得分荒:A队在T1时间点落后B队S分,经过T2-T1时间段A队 落后B队的分数>S,并且B队连续至少3个回合不得分,则称此A队在T2 -T1时间段进入得分荒。
定义1.9缩小分差:A队在T1时间点落后B队S分,经过T2-T1时间段A 队落后B队的分数<S,则称此A队在T2-T1时间缩小分差。
定义1.10双方打平:A队在T1时间点落后B队S分,经过T2-T1时间段 A队与B对得分相同,则称此A队在T2时间点与B对打平。
定义1.11双方对飙:在T2-T1时间段A队与B队交替得分,则称A队与B 队双方对飙。
定义1.12双方打铁:在T2-T1时间段A队与B队都不得分,则称A队与B 队双方打铁。
定义1.13:交替领先,A队在T1时间点领先B队S分,经过T2-T1时间, A队落后B队,经过T3-T2时间,A队领先B队,则称此A队与B队在T1-T3 时间内交替领先。
表1.1主题句
Figure RE-GSB0000184806220000041
Figure RE-GSB0000184806220000051
语料标注:
本发明采用多人交叉标注方法,对867篇NBA战报数据进行标注,首先利用 机器自动地去掉背景介绍信息,然后以句号为切分,将语料切分为以句子为单 位的语料,最后将数据分配给3个人进行标注,并将标注好的结果进行交叉验 证。语料预处理:由于NBA战报在撰写的时候有一些背景信息,与这场比赛 的事实无关,通过直播文本根本就无法生成,需要有历史数据以及专业的知识, 如表1.2所示,加粗的数据为背景数据。因此本发明需要将背景信息去掉。本发 明将剩余的数据再以句号为单位进行切分,使得每一行数据都表示一个句子, 这样有利于本发明标注,如表1.3所示。
表1.2战报背景数据
Figure RE-GSB0000184806220000052
表1.3待标注数据
Figure RE-GSB0000184806220000053
Figure RE-GSB0000184806220000061
本发明需要标注大量的NBA战报新闻语料库,学习编辑的写作特征。本发明 按照以下规则对数据进行标注:
首先制定标注规则,完全按照本发明事先定义好的类别进行标注,并对语料 标注者进行集中沟通,并确认是否完全理解类别信息。其次将语料平均分成N 份给N个人进行标注,本发明将NBA战报中报道的每一个句子提取出来,从结 构和内容上对数据进行标注,并且以\t进行分割。
表1.4结构主题标记
句子主题 标记
开局 J-1
局中 J-2
局尾 J-3
表1.5内容主题标记
句子主题类别 标记
扩大分差 N-1
小高潮 N-2
稳定比分 N-3
最大分差 N-4
得分荒 N-5
缩小分差 N-6
双方打平 N-7
双方对飙 N-8
双方打铁 N-9
交替领先 N-10
按照上述的标注规范对数据进行标注如下:
表1.6原始数据与标注数据
Figure RE-GSB0000184806220000071
语料校验:
本发明采用交叉校验方式,对数据进行多轮校验,并将校验标注数据与原始 数据进行对比,将存在问题的数据进行统一整理,并进行讨论,最终确认标注 结果。
特征提取:
分别使用TF-IDF算法、布尔权重法,对NBA新闻战报句子进行主题分类。 在进行文本分类之前,对语料进行预处理,提取关键词。
在实验过程中对数据进行预处理:主要对数据进行分词,构造新词表(NBA 的球员名、球队名、动作专有名词等),构造停用词表(NBA的球员名、球队 名、标点符号、数字、助词等),使词项更加符合NBA体育新闻的规则,并去 除无用的词汇。
把比分进行处理,将不同的比分转换为对应的词语。通过对语料的分析可知, 报道比分时的结构为xx-xx,将其定义为Zsore、Ksore。比分报道整体上分为:
1.对领先球队进行报道,该情况下:Zsore>Ksore。此情况下又可以分为由于章节需要报道的领先、比分扩大、比分反超,由于这几种情况仅通过比分上的 差异很难区分,统一标记为:“领先”。
2.对落后球队进行报道,该情况下:Zsore<Ksore。此情况下基本上为落后球队得分后缩小分差。我们按照已有分类的需求将其分为:Zsore<Ksore的情况, 标记为:“追分”;Zsore=Ksore,标记为:“平分”。
TF-IDF算法:利用TF,即关键词出现的频率,以及IDF,即反文档频率的 乘积,作为衡量该词对文档的重要程度。
布尔权重法即“特征词在文本中出现过即权重值为1,否则为0”。本发明主 要使用了互信息MI、信息增益IG、卡方CHI、加权对数似然比方法WLLR进 行了特征词的提取。并对四种情况下的结果取交集、并集分别进行测试。
分别对不同阶段预处理的语料设置不同的阈值、设置不同的维数、整体提取 与类别内提取进行对比实验,获取最好的分类结果。
实验结果与分析
实验数据
利用标注的3024条NBA体育战报新闻语句,将其划分为训练集∶测试集 =2000∶1024的比例作为实验数据,对不同的方法进行测试、对比。评价指标
借用文本分类评价中采用的准确率、召回率和F值进行评价。对于类别C, 分类的结果可分为以下几种情况:
1)原本为C类被划分为C类,数量记为a;
2)原本为非C类被划分为C类,数量记为b;
3)原本为C类被划分为非C类,数量记为c;
正确率:
召回率:
Figure RE-GSB0000184806220000082
F值:
Figure RE-GSB0000184806220000083
实验结果与分析
通过使用TF-IDF算法,使用训练集对语料进行训练,对测试集语料进行预 测。对不同阶段处理过的文本分别进行测试,结果如表1.7所示:
表1.7 TF-IDF分类结果
Figure RE-GSB0000184806220000084
Figure RE-GSB0000184806220000091
可以看出预处理均在一定程度上提高了分类的准确性。对最终的结果进行模 型指标评估报告的生成。可以看出使用TF-IDF算法进行文本分类时,对训练 集具有较好的拟合程度,准确度达到了77.65%,而对测试集却有较大的差距, 仅能达到68.65%。
布尔权重法的重点在于特征词的选取,选取好的特征词对于模型的准确程度 具有很大的影响。开始阶段,人工选择出42个特征词进行训练预测。
表1.8布尔权重法分类结果
训练集正确率 测试集正确率
未替换比分前的结果 0.5930 0.647804878049
将比分替换后结果 0.6590 0.7200
可以看到整体的情况十分糟糕。下面需要使用一些文本特征词提取的算法进 行特征词提取,提高分类模型的准确率。
一开始,对每个类别应用各自的公式求得不同词项在不同类别下的值,设置 一个阈值,提取所有大于该阈值的词为特征词。由于将每个类别下的阈值设置 的较低,因此得到的特征词维数较低,模型的准确率也呈现不同的状态,使得 整体情况较差。因为MI、IG两种方法更趋向于得到频率较低的词,所以当布 尔向量的维度较低时,准确率会十分低。
表1.9不同特征的布尔分类结果
阈值 特征词数 训练集正确率 测试集正确率
MI 0.3 30 0.3425 0.416015625
IG 0.05 36 0.4760 0.50390625
CHI 10 41 0.6505 0.72265625
WLLR 0.3 48 0.6565 0.7177734375
INTERSECTION 40 0.6430 0.7119140625
UNION 54 0.6730 0.7373046875
接下来降低了设定的阈值,增加了特征值的数量,使得布尔向量的维度提高, 结果如表1.10所示。
表1.10不同特征不同阈值的布尔分类结果
Figure RE-GSB0000184806220000092
虽然训练集的准确率与TF-IDF算法相比较低,但是在测试集的准确率有了 较大的提高,甚至比训练集更好。交集与并集通常表现不错,但是并集由于具 有较高的维度容易造成过拟合,使得测试集的准确率下降。通过提高训练集的 数量,两种方法的准确率进一步提高。
另外之前的特征词是对整体分析,获取大于规定阈值的词,存在大量词同属 于一类之下的情况,从每个类别中分别抽取15个特征词,去重后形成一个108 维的布尔向量,但是结果并没有提高。主要原因是在类别数据量少的类别里, 类别区分词不明显。于是出现了一些无关紧要的词,对分类并没有影响。通过 计算每个词项在各类文本下的值进行加权,获得整体的排序,所得的特征词大 体上一致。最终的测试结果表明在维数较低时加权结果较差,维数较高时其准 确率变化不明显。原因在于加权后排名较高的词项说明他的整体区分能力较强, 而单类别下排名较高的词项说明了其对该类别有较强的区分程度,在维数较低 的情况下,两者的差别会被放大,而单类别下具有更好的区分程度;当维数增 加,差别将越来越小。
通过提取前n个特征词进行测试,目的在于得出特征词个数对结果的影响。
表1.11特征词个数对实验结果的影响
Figure RE-GSB0000184806220000111
从结果可以看出,随着词项数目的增加,训练集拟合程度越来越高,正确率 越来越高,测试集在较小的范围内浮动变化。过高的维数会造成过拟合,使得 测试集的效果反而下降。
选取测试结果较好的词作为特征词提取方法,提取220维的布尔特征向量, 利用布尔权重法对文本进行分类,各类所得结果如表1.12所示。
表1.12各分类结果数据
类别 正确率 召回率 F值
扩大分差 0.82 0.82 0.82
小高潮 0.79 0.88 0.84
稳定比分 0.71 0.87 0.78
最大分差 0.74 0.94 0.83
得分荒 0.81 0.89 0.85
缩小分差 0.81 0.83 0.82
双方打平 0.98 0.95 0.97
双方对飙 0.49 0.95 0.64
双方打铁 0.83 1.00 0.90
交替领先 0.81 0.90 0.85
对每个类别的准确率进行分析、对比,发现战报文本中较常出现、有多个明 确特征词的类别可以得到很高的准确率,而一些出现频率较低,需要通过多词 分析的情况(双方对飙、交替领先)则准确率较低。
对测试结果进行分析:TF-IDF算法与布尔权重法相比,具有较好的召回率 (训练集上为0.92,测试集上为0.86),但总体上选取的方法在测试集上表现的 更加准确。另外两种方法都含有某些战报文本过短而无法正确分类的情况。以 及句子包含多个标签,预测与人工标注不符的情况。另外某些句子也需要一些 逻辑判断,机器难以分类。
本发明提供的体育新闻战报主题分类方法,对战报数据进行分类,首先是 对数据进行预处理,提取标注数据,其次对提取的句子进行人工标注,并进行 交叉验证,最后选取类别特征对句子主题进行分类,实验结果表明本发明提出 的方法对句子主题分类十分有效,准确率高,具有较好的召回率和F值,可用 于为领域模板库构建提供支持,可以很好地满足实际应用的需要。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但 并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改 进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权 利要求为准。

Claims (10)

1.一种体育新闻战报主题分类方法,其特征在于,包括:步骤1)对语料进行预处理;步骤2)对语料进行人工标注;步骤3)对语料进行交叉验证;步骤4)选取类别特征对句子主题进行分类。
2.根据权利要求1所述的体育新闻主题分类方法,其特征在于,步骤1)包括:利用机器自动去掉背景介绍信息,然后以句号为切分,将语料切分为以句子为单位的语料。
3.根据权利要求1所述的体育新闻主题分类方法,其特征在于,步骤2)包括:首先制定标注规则,完全按照类别定义进行标注,并对语料标注者进行集中沟通,并确认是否完全理解类别信息,然后将语料平均分给多个人进行标注。
4.根据权利要求3所述的体育新闻主题分类方法,其特征在于,所述类别定义包括结构类别和内容类别,结构类别是指每节比赛的开局、局中、局尾,内容类别是指比赛过程中反应出的事实主题。
5.根据权利要求4所述的体育新闻主题分类方法,其特征在于,开局定义为:每节比赛开始,第一句话,每节比赛的前2分钟左右,表现形式为:领先、落后、平局;
局中定义为:比赛的过程中,比分不停变化,每节比赛的2-11分钟左右,表现形式为:领先、落后、平局;
局尾定义为:比赛的最后一次进球,每节比赛的最后1分钟左右,如果最后一分钟内有多次进球,则以最后一次为准,表现形式:领先、落后、平局;
内容类别的事实主题包括:扩大比分、小高潮、稳定比分、最大分差;得分荒、缩小比分、双方打平、双方对飚、双方打铁、交替领先。
6.根据权利要求1所述的体育新闻主题分类方法,其特征在于,步骤3)包括:采用交叉校验方式,对数据进行多轮校验,并将校验标注数据与原始数据进行对比,将存在问题的数据进行统一整理并进行讨论,最终确认标注结果。
7.根据权利要求1所述的体育新闻战报主题分类方法,其特征在于,步骤4)包括:分别使用TF-IDF算法、布尔权重法,对体育新闻战报句子进行主题分类。
8.根据权利要求1-7所述的体育新闻战报主题分类方法,其特征在于,使用互信息MI、信息增益IG、卡方CHI、加权对数似然比方法WLLR进行特征词的提取,并对四种情况下的结果取交集、并集分别进行测试。
9.根据权利要求1-8所述的体育新闻战报主题分类方法,其特征在于,步骤1)包括:对数据进行分词,构造新词表,构造停用词表,使词项更加符合体育新闻的规则,并去除无用的词汇;把比分进行处理,将不同的比分转换为对应的词语。
10.根据权利要求1-9所述的体育新闻战报主题分类方法,其特征在于,所述步骤2)包括:将体育新闻战报中报道的每一个句子提取出来,从结构和内容上对数据进行标注,并且以\t进行分割。
CN201910404983.8A 2019-05-15 2019-05-15 体育新闻战报主题分类方法 Pending CN110704610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910404983.8A CN110704610A (zh) 2019-05-15 2019-05-15 体育新闻战报主题分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910404983.8A CN110704610A (zh) 2019-05-15 2019-05-15 体育新闻战报主题分类方法

Publications (1)

Publication Number Publication Date
CN110704610A true CN110704610A (zh) 2020-01-17

Family

ID=69193078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910404983.8A Pending CN110704610A (zh) 2019-05-15 2019-05-15 体育新闻战报主题分类方法

Country Status (1)

Country Link
CN (1) CN110704610A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239197A (zh) * 2021-05-12 2021-08-10 首都师范大学 基于tf-idf算法对句子分类的方法、装置及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810245A (zh) * 2013-12-30 2014-05-21 苏州艾隆科技股份有限公司 一种智能产品识别装置和识别方法及智能药房和快速集中发药装置
CN104820703A (zh) * 2015-05-12 2015-08-05 武汉数为科技有限公司 一种文本精细分类方法
CN108647251A (zh) * 2018-04-20 2018-10-12 昆明理工大学 基于宽深度门循环联合模型的推荐排序方法
CN109104639A (zh) * 2017-06-20 2018-12-28 阿里巴巴集团控股有限公司 直播***、确定直播视频主题的方法、装置以及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810245A (zh) * 2013-12-30 2014-05-21 苏州艾隆科技股份有限公司 一种智能产品识别装置和识别方法及智能药房和快速集中发药装置
CN104820703A (zh) * 2015-05-12 2015-08-05 武汉数为科技有限公司 一种文本精细分类方法
CN109104639A (zh) * 2017-06-20 2018-12-28 阿里巴巴集团控股有限公司 直播***、确定直播视频主题的方法、装置以及电子设备
CN108647251A (zh) * 2018-04-20 2018-10-12 昆明理工大学 基于宽深度门循环联合模型的推荐排序方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239197A (zh) * 2021-05-12 2021-08-10 首都师范大学 基于tf-idf算法对句子分类的方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
JP6721179B2 (ja) 因果関係認識装置及びそのためのコンピュータプログラム
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN100353361C (zh) 一种新的面向文本分类的特征向量权重的方法及装置
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
Hong et al. An extended keyword extraction method
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN104281645A (zh) 一种基于词汇语义和句法依存的情感关键句识别方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类***及方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN106227768B (zh) 一种基于互补语料的短文本观点挖掘方法
CN103778243A (zh) 一种领域术语抽取方法
CN110457711B (zh) 一种基于主题词的社交媒体事件主题识别方法
Yüksel et al. Turkish tweet classification with transformer encoder
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN102541838A (zh) 用于优化情感分类器的方法和设备
Hettinger et al. Genre classification on German novels
Inrak et al. Applying latent semantic analysis to classify emotions in Thai text
CN105912528A (zh) 一种问句分类方法及***
CN110674296A (zh) 一种基于关键词的资讯摘要提取方法及***
CN114896398A (zh) 一种基于特征选择的文本分类***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117