CN107644085A - 体育赛事新闻的生成方法和装置 - Google Patents

体育赛事新闻的生成方法和装置 Download PDF

Info

Publication number
CN107644085A
CN107644085A CN201710867940.4A CN201710867940A CN107644085A CN 107644085 A CN107644085 A CN 107644085A CN 201710867940 A CN201710867940 A CN 201710867940A CN 107644085 A CN107644085 A CN 107644085A
Authority
CN
China
Prior art keywords
sentence
competitive sports
live
lteral data
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710867940.4A
Other languages
English (en)
Other versions
CN107644085B (zh
Inventor
李法远
沈剑平
陈思姣
罗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710867940.4A priority Critical patent/CN107644085B/zh
Publication of CN107644085A publication Critical patent/CN107644085A/zh
Application granted granted Critical
Publication of CN107644085B publication Critical patent/CN107644085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种体育赛事新闻的生成方法和装置,其中,体育赛事新闻的生成方法包括:抓取体育赛事的直播文字数据;提取直播文字数据的特征,并根据特征计算出直播文字数据对应的得分;根据得分,基于跨句语言模型筛选出候选句集合;以及根据候选句集合生成体育赛事新闻。本发明实施例的体育赛事新闻的生成方法和装置,通过抓取体育赛事的直播文字数据,提取直播文字数据的特征,并根据特征计算出直播文字数据对应的得分,再根据得分,基于跨句语言模型筛选出候选句集合,以及根据候选句集合生成体育赛事新闻,能够快速地生成体育赛事新闻保证时效性,且生成的体育赛事新闻语句通顺流畅,提升用户阅读体验。

Description

体育赛事新闻的生成方法和装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种体育赛事新闻的生成方法和装置。
背景技术
现如今每天都会有大量的体育赛事举行,各式各样的比赛结束后立刻写出相应的赛事新闻报道是一个迫切且有挑战性的工作。目前,大部分的新闻网站主要还是依赖编辑人工撰写体育赛事新闻报道,工作重复且繁琐,耗费人力,时效性不高。
发明内容
本发明提供一种体育赛事新闻的生成方法和装置,以解决上述技术问题中的至少一个。
本发明实施例提供一种体育赛事新闻的生成方法,包括:抓取体育赛事的直播文字数据;提取所述直播文字数据的特征,并根据所述特征计算出所述直播文字数据对应的得分;根据所述得分,基于跨句语言模型筛选出候选句集合;以及根据所述候选句集合生成体育赛事新闻。
可选的,抓取体育赛事的直播文字数据,包括:确定所述体育赛事的开始时间;根据所述开始时间开启抓取数据程序,并控制所述抓取数据程序定时抓取所述直播文字数据,直至所述体育赛事结束。
可选的,提取所述直播文字数据的特征,并根据所述特征计算出所述直播文字数据对应的得分,包括:基于线性回归模型,根据所述直播文字数据的特征生成对应的特征参数;根据所述特征和所述特征参数计算出所述直播文字数据对应的得分。
可选的,根据所述得分,基于跨句语言模型筛选出候选句集合,包括:根据所述得分,基于行列式点操作生成所述直播文字数据的语句集合;基于跨句语言模型从所述语句集合中筛选出符合连贯性条件的候选语句,以生成所述候选句集合。
可选的,所述跨句语言模型包括句内skip n-gram模型和跨句边界模型,所述句内skip n-gram模型和所述跨句边界模型通过对数线性插值法整合获得所述跨句语言模型。
可选的,根据所述候选句集合生成体育赛事新闻,包括:获取所述候选句集合中候选句的时间信息,并根据所述时间信息按照时间先后顺序排列所述候选句,以此生成所述体育赛事新闻。
可选的,方法还包括:获取所述体育赛事的相关信息,所述相关信息包括统计数据和图片信息;根据所述相关信息和所述候选句集合生成体育赛事新闻。
本发明另一实施例提供一种体育赛事新闻的生成装置,包括:抓取模块,用于抓取体育赛事的直播文字数据;处理模块,用于提取所述直播文字数据的特征,并根据所述特征计算出所述直播文字数据对应的得分;筛选模块,用于根据所述得分,基于跨句语言模型筛选出候选句集合;以及生成模块,用于根据所述候选句集合生成体育赛事新闻。
可选的,所述抓取模块,用于:确定所述体育赛事的开始时间;根据所述开始时间开启抓取数据程序,并控制所述抓取数据程序定时抓取所述直播文字数据,直至所述体育赛事结束。
可选的,所述处理模块,用于:基于线性回归模型,根据所述直播文字数据的特征生成对应的特征参数;根据所述特征和所述特征参数计算出所述直播文字数据对应的得分。
可选的,所述筛选模块,用于:根据所述得分,基于行列式点操作生成所述直播文字数据的语句集合;基于跨句语言模型从所述语句集合中筛选出符合连贯性条件的候选语句,以生成所述候选句集合。
可选的,所述跨句语言模型包括句内skip n-gram模型和跨句边界模型,所述句内skip n-gram模型和所述跨句边界模型通过对数线性插值法整合获得所述跨句语言模型。
可选的,所述生成模块,用于:获取所述候选句集合中候选句的时间信息,并根据所述时间信息按照时间先后顺序排列所述候选句,以此生成所述体育赛事新闻。
可选的,所述装置还包括:获取模块,用于获取所述体育赛事的相关信息,所述相关信息包括统计数据和图片信息;所述生成模块,还用于根据所述相关信息和所述候选句集合生成体育赛事新闻。
本发明还一实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述的体育赛事新闻的生成方法。
本发明又一实施例提供一种终端设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器用于执行本发明第一方面实施例所述的体育赛事新闻的生成方法。
本发明实施例提供的技术方案可以包括以下有益效果:
通过抓取体育赛事的直播文字数据,提取所述直播文字数据的特征,并根据所述特征计算出所述直播文字数据对应的得分,再根据所述得分,基于跨句语言模型筛选出候选句集合,以及根据所述候选句集合生成体育赛事新闻,能够快速地生成体育赛事新闻保证时效性,且生成的体育赛事新闻语句通顺流畅,提升用户阅读体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的体育赛事新闻的生成方法的流程图;
图2是根据本发明另一个实施例的体育赛事新闻的生成方法的流程图;
图3是根据本发明一个实施例的体育赛事新闻的生成装置的结构框图;
图4是根据本发明另一个实施例的体育赛事新闻的生成装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的体育赛事新闻的生成方法。
图1是根据本发明一个实施例的体育赛事新闻的生成方法的流程图。
如图1所示,该体育赛事新闻的生成方法包括:
S101,抓取体育赛事的直播文字数据。
现今每天都有大量的体育赛事举行,各式各样的比赛结束后立刻写出相应的赛事新闻报道是一个迫切且有挑战性的工作。目前,大部分的新闻网站主要还是依赖编辑人工撰写体育赛事新闻报道,工作重复且繁琐,耗费人力,时效性不高。而在互联网中,有一种体育赛事文字直播服务,在无法观看视频直播的体育爱好者中流行,这些体育爱好者可以使用移动设备来观看文字直播。这种文字直播的出现,产生了大量的体育赛事评论性文本数据。而赛事报道形式的体育新闻往往与同一场赛事的直播文字共享同样的信息和词汇用语,体育新闻和直播评论性文本是针对体育赛事进行描述的两种不同来源。因此,可以基于直播评论性文本来生成体育赛事新闻。
在本发明的一个实施例中,可抓取体育赛事的直播文字数据。具体地,首先确定体育赛事的开始时间,然后可根据开始时间开启抓取数据程序,并控制抓取数据程序定时抓取直播文字数据,直至体育赛事结束。
S102,提取直播文字数据的特征,并根据特征计算出直播文字数据对应的得分。
在抓取直播文字数据之后,可提取直播文字数据的特征,并根据特征计算出直播文字数据对应的得分。
具体地,可基于线性回归模型,根据直播文字数据的特征生成对应的特征参数,然后根据特征和特征参数计算出直播文字数据对应的得分。
S103,根据得分,基于跨句语言模型筛选出候选句集合。
在计算出直播文字数据对应的得分之后,可根据得分,基于跨句语言模型筛选出候选句集合。
具体地,可根据得分,基于行列式点操作生成直播文字数据的语句集合,再基于跨句语言模型从语句集合中筛选出符合连贯性条件的候选语句,以生成候选句集合。
其中,跨句语言模型可包括句内skip n-gram模型和跨句边界模型,句内skip n-gram模型和跨句边界模型通过对数线性插值法整合获得跨句语言模型。
其中,行列式点操作所基于的框架为跨句语言模型的DPP framework,该框架能够有效地解决生成新闻类的文章中,对语句的凝练和语言通顺性的要求。
S104,根据候选句集合生成体育赛事新闻。
在筛选出候选句集合之后,可根据候选句集合生成体育赛事新闻。
具体地,可获取候选句集合中候选句的时间信息,并根据时间信息按照时间先后顺序排列候选句,以此生成体育赛事新闻。
应当理解的是,本方法还可应用于生成事件脉络的事件摘要、流式新闻摘要等领域。
本发明实施例的体育赛事新闻的生成方法,通过抓取体育赛事的直播文字数据,提取直播文字数据的特征,并根据特征计算出直播文字数据对应的得分,再根据得分,基于跨句语言模型筛选出候选句集合,以及根据候选句集合生成体育赛事新闻,能够快速地生成体育赛事新闻保证时效性,且生成的体育赛事新闻语句通顺流畅,提升用户阅读体验。
为了实现上述实施例,本发明还提出另一个实施例的体育赛事新闻的生成方法。
如图2所示,该体育赛事新闻的生成方法包括:
S201,抓取体育赛事的直播文字数据。
S202,获取体育赛事的相关信息。
其中,相关信息可包括统计数据和图片信息,例如比赛的统计数据、球员的统计数据,比赛时拍摄的图片等。
S203,提取直播文字数据的特征,并根据特征计算出直播文字数据对应的得分。
S204,根据得分,基于跨句语言模型筛选出候选句集合。
S205,根据相关信息和候选句集合生成体育赛事新闻。
最后,可将相关信息与候选句集合进行合并,从而生成图文并茂的体育赛事新闻。
本发明实施例的体育赛事新闻的生成方法,通过将相关信息与候选句集合进行合并,能够生成图文并茂的体育赛事新闻,提高用户阅读的兴趣,更具可读性。
下面以一个具体示例进行详细描述。
目前,大多采用编辑撰写的方法生成体育赛事新闻。当面对大量的体育赛事时,人力成本会变高,赛事报道撰写不及时,且工作往往重复性高且冗长乏味。虽然也有通过机器自动生成体育赛事新闻的技术,但是其在生成文章时,考虑句子的连贯性,会存在一定的语言不通顺问题,影响用户的阅读体验。为此,本发明为解决上述问题,引入了跨句语言模型,同时为了满足时效性需求,采用了定期启动文字直播数据抓取的方案。
其中,可将分为体育赛事新闻生成方法分为四部分。
第一部分为体育赛事文字直播数据抓取。
具体地,可根据体育赛事的举办时间,定点启动文字直播数据抓取程序,按照预设时间间隔抓取文字直播数据,直到确认全部文字直播数据抓取完成。其中,文字直播数据可包括赛事直播文本、直播文本的当前时间戳、直播文本中的当前得分、球员技术数据、比赛图片等。
第二部分为直播文本句子打分。
具体地,该部分可将新闻生成问题,转化为无监督的句子选择问题。对于直播文本的句子,需要识别哪些句子包含重要信息。本部分可从句子质量、吸引力、信息丰富度等方面,对句子进行特征提取,以此表征句子,再使用线性回归Linear Regression模型对句子进行打分,后续再对打分后的句子进行筛选。其中,打分时可针对句子的特征,随机生成介于0和1的值作为特征参数,然后特征参数和特征值线性相加,并归一化得到句子的得分。
其中,句子质量特征可包括去除停用词后句子的词数量、句子的停用词数量、句子中每个词的TF-IDF(词频-逆向文件频率)权重之和。
吸引力特征可包括以下几个具体特征:
1、句子位置,如句子是文字直播的第i句,直播句子总数为n,则特征值为1-(i-1)/n。
2、时间特征,如句子是第i分钟发布的,全场分钟数为n,则特征值为i/n。
3、体育赛事状态二元特征,如未赛、上半场、中场休息、下半场、完赛。
4、标记词的二元特征,如破门、红牌等句子,且还可包含标记词数量。
5、比分特征及其对应的二元特征,如是否比分有变化、是否当前句子与最近一次比分变化的句子的距离<=5、当前比分是否平局。
6、球员人气特征,如句子中包含的球员数、句子中包含的球员的人气总和(人气值可以是通过搜索引擎检索到的新闻数)。
信息丰富度特征为计算句子与前后N个句子的余弦相似度。
第三部分为候选句子选择。
在完成直播文本的句子打分之后,可以选择得分高的句子来构建体育赛事新闻。但由于线性回归模型对每个句子独立打分,存在描述相同或相似事件的重复性句子都为高分的情况,从而导致信息冗余。因此,本部分中,引入行列式点操作(Determinantal PointProcesses,DPP)。通过DPP可以筛选出更具差异化的句子,避免冗余。
具体地,通过DPP对句子集合的子集分布概率进行计算,获取得分高且句子间差异大的句子子集。其中,句子子集分布概率定义如下:
其中,Y表示句子集合;L是半正定矩阵,表示矩阵L中的元素由集合Y的元素决定;det(L+I)为归一化因子。其中,矩阵L的元素值定义如下:
其中。qi是集合Y中元素句子i的得分,φi是句子i的归一化后的特征向量,sim(i,j)∈[-1,1]为句子i和句子j之间的相似度。
通过使用上述公式来计算得到的句子集合的概率,可以有效地提高获取得分高且信息量更丰富的句子集合的概率。其中,det(LY)与由向量集合qiφi延伸所构成的体积成正比。
而通过DPP筛选出的句子,忽略了句子与句子之间的连贯性,因此本部分还引入了跨句语言模型,来优化句子连贯性,从而提高用户的阅读体验。
具体地,跨句语言模型包含两个模型:句内Skip n-gram模型和跨句边界模型(TheAcross Sentence Boundary Model),这两个模型使用对数线性插值法整合得到跨句语言模型。
其中,在使用Skip n-gram模型计算当前词w的概率时,不再局限在基于左边紧挨临近的n-1个词的条件下的概率,而是可以向左跳过一些词,得到比传统n-gram更大的范围。具体可采用对数线性插值法来整合skip bigram模型和skip trigram模型,以此计算当前词w的出现概率。
其中,w是句子的单词;窗口大小为m+1;h=h-1,h-2,...,h-m是窗口内的单词;λi和λi,j是插值权重;Zλ(h)是归一化因子。
在使用跨句边界模型时,该模型认为相邻句子的词之间存在密切关系,前几句出现的词往往会对下一句中的词产生影响,因此基于前几句的词分布来计算当前词w的概率,具体的定义为公式一:
其中S-1和S-2为当前词w的前一个句子和前两个句子,u和v分别为句子S-1和S-2中的词,为对应的词频。Psentsent(w|u,v,...)是当前词w在相邻句子词u,v等词下的条件概率。
此外,还可进行快速边缘调整操作,得到新的当前词w的概率,定义如下(公式二):
其中,P(w)是通常的词的概率,P(w|Si-1)是跨句边界模型的词的概率,λu是对数线性插值法的参数,Zλ(h)是归一化因子,P(w|h)是skip n-gram的词的概率。
然后,基于公式一和公式二可得到当前词w的概率,其定义如下(公式三):
然后,整合DPP和跨句语言模型,重新定义矩阵L的元素值:
最后,句子集合的概率值公式P(Y)确定之后,可根据贪婪算法,在设定一定的约束条件下,筛选出向最终句子集合中加入当前候选句子集合中使得概率P(Y)最大的候选句子,直到候选句子集合为空或候选句子集合中没有使得能最终句子集合符合约束条件的句子为止。最后,获得最终句子集合。
第四部分为体育赛事新闻生成。
在获得最终句子集合后,可根据直播文本原有的句子顺序对句子集合进行排序,生成文章,并按照一定的规则整合文章、球员技术数据、比赛图片,最终生成完整的体育赛事新闻。
本发明通过利用文字直播的评论性流式文本,以比赛报道的形式来生成体育赛事新闻,一方面可以识别到比赛直播时流式文本中的重要信息,生成的文章能包含足够丰富的内容,同时提高了时效性;另一方面可以大大地减少体育赛事编辑的负担,有效地解决了每天举行的大量体育赛事的重复繁琐的新闻报道撰写问题。此外,在生成体育赛事新闻时,考虑到句子连贯性问题,引入跨句语言模型,生成的文章更加流畅,提高了用户的阅读体验。
在信息过剩的资讯时代,用户获取感兴趣的高质、高时效新闻的成本越来越大。本方法可以去除冗余信息,整合重要优质内容,辅助深度定制用户的个性化新闻简报,让用户能够第一时刻利用碎片时间即可了解到自己感兴趣的最新内容。
为了实现上述实施例,本发明还提出了一种体育赛事新闻的生成装置,图3是根据本发明一个实施例的体育赛事新闻的生成装置的结构框图,如图3所示,该装置包括抓取模块310、处理模块320、筛选模块330和生成模块340。
其中,抓取模块310,用于抓取体育赛事的直播文字数据。
处理模块320,用于提取直播文字数据的特征,并根据特征计算出直播文字数据对应的得分。
筛选模块330,用于根据得分,基于跨句语言模型筛选出候选句集合。
生成模块340,用于根据候选句集合生成体育赛事新闻。
此外,如图4所示,本发明实施例的体育赛事新闻的生成装置还可包括:
获取模块350,用于获取体育赛事的相关信息。
其中,相关信息包括统计数据和图片信息;
生成模块340,还用于根据相关信息和候选句集合生成体育赛事新闻。
需要说明的是,前述对体育赛事新闻的生成方法的解释说明,也适用于本发明实施例的体育赛事新闻的生成装置,本发明实施例中未公布的细节,在此不再赘述。
本发明实施例的体育赛事新闻的生成装置,通过抓取体育赛事的直播文字数据,提取直播文字数据的特征,并根据特征计算出直播文字数据对应的得分,再根据得分,基于跨句语言模型筛选出候选句集合,以及根据候选句集合生成体育赛事新闻,能够快速地生成体育赛事新闻保证时效性,且生成的体育赛事新闻语句通顺流畅,提升用户阅读体验。
为了实现上述实施例,本发明还一实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例的体育赛事新闻的生成方法。
为了实现上述实施例,本发明又一实施例提供一种终端设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器用于执行本发明第一方面实施例的体育赛事新闻的生成方法。
例如,计算机程序可被处理器执行以完成以下步骤的体育赛事新闻的生成方法:
S101’,抓取体育赛事的直播文字数据。
S102’,提取直播文字数据的特征,并根据特征计算出直播文字数据对应的得分。
S103’,根据得分,基于跨句语言模型筛选出候选句集合。
S104’,根据候选句集合生成体育赛事新闻。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种体育赛事新闻的生成方法,其特征在于,包括:
抓取体育赛事的直播文字数据;
提取所述直播文字数据的特征,并根据所述特征计算出所述直播文字数据对应的得分;
根据所述得分,基于跨句语言模型筛选出候选句集合;以及
根据所述候选句集合生成体育赛事新闻。
2.如权利要求1所述的方法,其特征在于,抓取体育赛事的直播文字数据,包括:
确定所述体育赛事的开始时间;
根据所述开始时间开启抓取数据程序,并控制所述抓取数据程序定时抓取所述直播文字数据,直至所述体育赛事结束。
3.如权利要求1所述的方法,其特征在于,提取所述直播文字数据的特征,并根据所述特征计算出所述直播文字数据对应的得分,包括:
基于线性回归模型,根据所述直播文字数据的特征生成对应的特征参数;
根据所述特征和所述特征参数计算出所述直播文字数据对应的得分。
4.如权利要求1所述的方法,其特征在于,根据所述得分,基于跨句语言模型筛选出候选句集合,包括:
根据所述得分,基于行列式点操作生成所述直播文字数据的语句集合;
基于跨句语言模型从所述语句集合中筛选出符合连贯性条件的候选语句,以生成所述候选句集合。
5.如权利要求4所述的方法,其特征在于,所述跨句语言模型包括句内skip n-gram模型和跨句边界模型,所述句内skip n-gram模型和所述跨句边界模型通过对数线性插值法整合获得所述跨句语言模型。
6.如权利要求1所述的方法,其特征在于,根据所述候选句集合生成体育赛事新闻,包括:
获取所述候选句集合中候选句的时间信息,并根据所述时间信息按照时间先后顺序排列所述候选句,以此生成所述体育赛事新闻。
7.如权利要求1所述的方法,其特征在于,还包括:
获取所述体育赛事的相关信息,所述相关信息包括统计数据和图片信息;
根据所述相关信息和所述候选句集合生成体育赛事新闻。
8.一种体育赛事新闻的生成装置,其特征在于,包括:
抓取模块,用于抓取体育赛事的直播文字数据;
处理模块,用于提取所述直播文字数据的特征,并根据所述特征计算出所述直播文字数据对应的得分;
筛选模块,用于根据所述得分,基于跨句语言模型筛选出候选句集合;以及
生成模块,用于根据所述候选句集合生成体育赛事新闻。
9.如权利要求8所述的装置,其特征在于,所述抓取模块,用于:
确定所述体育赛事的开始时间;
根据所述开始时间开启抓取数据程序,并控制所述抓取数据程序定时抓取所述直播文字数据,直至所述体育赛事结束。
10.如权利要求8所述的装置,其特征在于,所述处理模块,用于:
基于线性回归模型,根据所述直播文字数据的特征生成对应的特征参数;
根据所述特征和所述特征参数计算出所述直播文字数据对应的得分。
11.如权利要求8所述的装置,其特征在于,所述筛选模块,用于:
根据所述得分,基于行列式点操作生成所述直播文字数据的语句集合;
基于跨句语言模型从所述语句集合中筛选出符合连贯性条件的候选语句,以生成所述候选句集合。
12.如权利要求11所述的装置,其特征在于,所述跨句语言模型包括句内skip n-gram模型和跨句边界模型,所述句内skip n-gram模型和所述跨句边界模型通过对数线性插值法整合获得所述跨句语言模型。
13.如权利要求8所述的装置,其特征在于,所述生成模块,用于:
获取所述候选句集合中候选句的时间信息,并根据所述时间信息按照时间先后顺序排列所述候选句,以此生成所述体育赛事新闻。
14.如权利要求8所述的装置,其特征在于,还包括:
获取模块,用于获取所述体育赛事的相关信息,所述相关信息包括统计数据和图片信息;
所述生成模块,还用于根据所述相关信息和所述候选句集合生成体育赛事新闻。
15.一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-7任一项所述的体育赛事新闻的生成方法。
16.一种终端设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器用于执行如权利要求1-7任一项所述的体育赛事新闻的生成方法。
CN201710867940.4A 2017-09-22 2017-09-22 体育赛事新闻的生成方法和装置 Active CN107644085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710867940.4A CN107644085B (zh) 2017-09-22 2017-09-22 体育赛事新闻的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710867940.4A CN107644085B (zh) 2017-09-22 2017-09-22 体育赛事新闻的生成方法和装置

Publications (2)

Publication Number Publication Date
CN107644085A true CN107644085A (zh) 2018-01-30
CN107644085B CN107644085B (zh) 2020-12-11

Family

ID=61111361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710867940.4A Active CN107644085B (zh) 2017-09-22 2017-09-22 体育赛事新闻的生成方法和装置

Country Status (1)

Country Link
CN (1) CN107644085B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190095A (zh) * 2018-04-13 2019-01-11 北京爱群游网络信息技术有限公司 一种文章的生成方法及装置
CN109710945A (zh) * 2018-12-29 2019-05-03 北京百度网讯科技有限公司 基于数据生成文本方法、装置、计算机设备和存储介质
CN109740123A (zh) * 2018-12-21 2019-05-10 北京信息科技大学 使用实时数据生成体育赛事战报的方法
CN110309320A (zh) * 2019-06-28 2019-10-08 浙江传媒学院 结合nba赛事知识图谱的nba篮球新闻自动生成方法
CN110555196A (zh) * 2018-05-30 2019-12-10 北京百度网讯科技有限公司 用于自动生成文章的方法、装置、设备和存储介质
CN111031390A (zh) * 2019-12-17 2020-04-17 南京航空航天大学 基于动态规划的输出大小固定序列行列式点过程视频概要方法
CN111324748A (zh) * 2020-02-28 2020-06-23 北京百度网讯科技有限公司 一种体育战报的生成方法、装置、电子设备及存储介质
CN111414735A (zh) * 2020-03-11 2020-07-14 北京明略软件***有限公司 文本数据的生成方法和装置
CN112287098A (zh) * 2020-10-22 2021-01-29 复旦大学 文章的生成方法、装置、设备及存储介质
CN108829854B (zh) * 2018-06-21 2021-08-31 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN113411623A (zh) * 2021-06-15 2021-09-17 首都师范大学 一种基于分差-时间函数算法的新闻自动生成方法、***及计算机可读存储介质
CN113497949A (zh) * 2021-06-15 2021-10-12 首都师范大学 一种基于分差-时间函数算法的直播方法、赛事直播终端、电子设备及计算机可读存储介质
CN117313747A (zh) * 2023-09-19 2023-12-29 重庆邮电大学 一种由体育赛事解说生成体育战报的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
US8666749B1 (en) * 2013-01-17 2014-03-04 Google Inc. System and method for audio snippet generation from a subset of music tracks
CN104636419A (zh) * 2013-11-11 2015-05-20 国际商业机器公司 信息处理装置、信息处理方法
CN105912526A (zh) * 2016-04-15 2016-08-31 北京大学 一种面向体育比赛直播文字的体育新闻自动构建方法及装置
CN106815211A (zh) * 2016-12-22 2017-06-09 深圳爱拼信息科技有限公司 一种基于循环聚焦机制进行文档主题建模的方法
CN106919619A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 一种商品聚类方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
US8666749B1 (en) * 2013-01-17 2014-03-04 Google Inc. System and method for audio snippet generation from a subset of music tracks
CN104636419A (zh) * 2013-11-11 2015-05-20 国际商业机器公司 信息处理装置、信息处理方法
CN106919619A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 一种商品聚类方法、装置及电子设备
CN105912526A (zh) * 2016-04-15 2016-08-31 北京大学 一种面向体育比赛直播文字的体育新闻自动构建方法及装置
CN106815211A (zh) * 2016-12-22 2017-06-09 深圳爱拼信息科技有限公司 一种基于循环聚焦机制进行文档主题建模的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JINMIN ZHANG: "Toward constructing sports news from live text commentary", 《54TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190095A (zh) * 2018-04-13 2019-01-11 北京爱群游网络信息技术有限公司 一种文章的生成方法及装置
CN110555196A (zh) * 2018-05-30 2019-12-10 北京百度网讯科技有限公司 用于自动生成文章的方法、装置、设备和存储介质
CN110555196B (zh) * 2018-05-30 2023-07-18 北京百度网讯科技有限公司 用于自动生成文章的方法、装置、设备和存储介质
CN108829854B (zh) * 2018-06-21 2021-08-31 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN109740123A (zh) * 2018-12-21 2019-05-10 北京信息科技大学 使用实时数据生成体育赛事战报的方法
CN109710945A (zh) * 2018-12-29 2019-05-03 北京百度网讯科技有限公司 基于数据生成文本方法、装置、计算机设备和存储介质
CN109710945B (zh) * 2018-12-29 2022-11-18 北京百度网讯科技有限公司 基于数据生成文本方法、装置、计算机设备和存储介质
CN110309320B (zh) * 2019-06-28 2021-04-06 浙江传媒学院 结合nba赛事知识图谱的nba篮球新闻自动生成方法
CN110309320A (zh) * 2019-06-28 2019-10-08 浙江传媒学院 结合nba赛事知识图谱的nba篮球新闻自动生成方法
CN111031390A (zh) * 2019-12-17 2020-04-17 南京航空航天大学 基于动态规划的输出大小固定序列行列式点过程视频概要方法
CN111324748A (zh) * 2020-02-28 2020-06-23 北京百度网讯科技有限公司 一种体育战报的生成方法、装置、电子设备及存储介质
CN111324748B (zh) * 2020-02-28 2023-08-04 北京百度网讯科技有限公司 一种体育战报的生成方法、装置、电子设备及存储介质
CN111414735A (zh) * 2020-03-11 2020-07-14 北京明略软件***有限公司 文本数据的生成方法和装置
CN111414735B (zh) * 2020-03-11 2024-03-22 北京明略软件***有限公司 文本数据的生成方法和装置
CN112287098A (zh) * 2020-10-22 2021-01-29 复旦大学 文章的生成方法、装置、设备及存储介质
CN113497949A (zh) * 2021-06-15 2021-10-12 首都师范大学 一种基于分差-时间函数算法的直播方法、赛事直播终端、电子设备及计算机可读存储介质
CN113411623A (zh) * 2021-06-15 2021-09-17 首都师范大学 一种基于分差-时间函数算法的新闻自动生成方法、***及计算机可读存储介质
CN117313747A (zh) * 2023-09-19 2023-12-29 重庆邮电大学 一种由体育赛事解说生成体育战报的方法

Also Published As

Publication number Publication date
CN107644085B (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN107644085A (zh) 体育赛事新闻的生成方法和装置
CN110020437B (zh) 一种视频和弹幕相结合的情感分析及可视化方法
CN111541910B (zh) 一种基于深度学习的视频弹幕评论自动生成方法及***
CN111582241B (zh) 视频字幕识别方法、装置、设备及存储介质
CN106534548B (zh) 语音纠错方法和装置
CN109740077A (zh) 基于语义索引的答案搜索方法、装置及其相关设备
CN105224581B (zh) 在播放音乐时呈现图片的方法和装置
CN103052953A (zh) 信息处理设备、信息处理方法和程序
CN110364146A (zh) 语音识别方法、装置、语音识别设备及存储介质
CN109614604A (zh) 字幕处理方法、装置及存储介质
CN112733654B (zh) 一种视频拆条的方法和装置
CN111488487B (zh) 一种面向全媒体数据的广告检测方法及检测***
CN109376775A (zh) 在线新闻多模态情感分析方法
US11741996B1 (en) Method and system for generating synthetic video advertisements
CN111524045A (zh) 一种听写方法及装置
CN107122393A (zh) 电子相册生成方法以及装置
CN116049557A (zh) 一种基于多模态预训练模型的教育资源推荐方法
CN111488813A (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN111986259A (zh) 颜文字检测模型的训练、视频数据的审核方法及相关装置
CN110287799A (zh) 基于深度学习的视频ucl语义标引方法与装置
CN115278300A (zh) 视频处理方法、装置、电子设备、存储介质和程序产品
CN116524906A (zh) 用于语音识别的训练数据生成方法、***和电子设备
CN113411517B (zh) 视频模板的生成方法、装置、电子设备及存储介质
CN115965810A (zh) 一种基于多模态一致性的短视频谣言检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant