CN111814770A - 一种新闻视频的内容关键词提取方法、终端设备及介质 - Google Patents

一种新闻视频的内容关键词提取方法、终端设备及介质 Download PDF

Info

Publication number
CN111814770A
CN111814770A CN202010919780.5A CN202010919780A CN111814770A CN 111814770 A CN111814770 A CN 111814770A CN 202010919780 A CN202010919780 A CN 202010919780A CN 111814770 A CN111814770 A CN 111814770A
Authority
CN
China
Prior art keywords
word
news
text
video
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010919780.5A
Other languages
English (en)
Other versions
CN111814770B (zh
Inventor
周凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Institute of Sun Yat Sen University
Original Assignee
Shenzhen Research Institute of Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute of Sun Yat Sen University filed Critical Shenzhen Research Institute of Sun Yat Sen University
Priority to CN202010919780.5A priority Critical patent/CN111814770B/zh
Publication of CN111814770A publication Critical patent/CN111814770A/zh
Application granted granted Critical
Publication of CN111814770B publication Critical patent/CN111814770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于视频处理技术领域,提供了一种新闻视频的内容关键词提取方法、终端设备及介质,通过对目标新闻视频进行内容提取操作得到新闻文本,并对新闻文本进行分词处理得到对应的词语集合;确定目标新闻视频的新闻标题,以及获取预设的命名实体集合;将新闻文本、词语集合、新闻标题以及命名实体集合输入至训练好的关键词提取模型中进行处理,得到词语集合对应的词语得分值矩阵;词语的总得分值是根据词语在新闻文本中出现的概率、词语与新闻标题的相关度、词语在新闻文本中的分布位置得分值以及词语与命名实体集合的匹配度确定得到的;将词语集合中满足预设条件的目标词语确定为新闻视频的内容关键词,从而提高了提取出的内容关键词的准确率。

Description

一种新闻视频的内容关键词提取方法、终端设备及介质
技术领域
本申请属于视频处理技术领域,尤其涉及一种新闻视频的内容关键词提取方法、终端设备及计算机可读存储介质。
背景技术
新闻视频是以视频为媒介和信息载体来传递新闻资讯的一种方式。新闻视频通常会清楚地交代新闻事件的内容信息,包括新闻事件涉及的人物、时间、地点以及事件发生的起因、经过及结果等,这些关键信息可以通过若干个词语表示,用以总结概括新闻视频的主要内容,这些词语被称为新闻视频的内容关键词。而为了实现对新闻视频的分类或检索等,通常需要先从新闻视频中提取出新闻视频的内容关键词。
传统的新闻视频的内容关键词提取方法通常是采用文档主题生成(LatentDirichlet Allocation,LDA)模型来从新闻视频对应的新闻文本中提取内容关键词,然而,对于新闻文本这种具有特定自然语言特点的特殊文体来说,采用LDA模型提取新闻视频的内容关键词会导致提取出的内容关键词的准确率较低。
发明内容
有鉴于此,本申请实施例提供了一种新闻视频的内容关键词提取方法、终端设备及计算机可读存储介质,以解决现有的基于LDA模型的新闻视频的内容关键词提取方法提取出的内容关键词的准确率较低的问题。
第一方面,本申请实施例提供一种新闻视频的内容关键词提取方法,包括:
对目标新闻视频进行内容提取操作,得到用于描述所述目标新闻视频的新闻文本,并对所述新闻文本进行分词处理,得到所述新闻文本对应的词语集合;
确定所述目标新闻视频的新闻标题,以及获取预设的命名实体集合;
将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中进行处理,得到所述词语集合对应的词语得分值矩阵;其中,所述词语得分值矩阵中每个元素的值用于表示所述元素在所述词语集合中对应的词语的总得分值;所述词语的总得分值是根据所述词语在所述新闻文本中出现的概率、所述词语与所述新闻标题的相关度、所述词语在所述新闻文本中的分布位置得分值以及所述词语与所述命名实体集合的匹配度确定得到的;
根据所述词语得分值矩阵确定所述词语集合中满足预设条件的目标词语,并将所述目标词语确定为所述新闻视频的内容关键词。
可选的,所述将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中进行处理,得到所述词语集合对应的词语得分值矩阵,包括:
将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中;
针对所述词语集合中的每个词语,通过文档主题生成单元确定所述词语在所述新闻文本中出现的概率;
针对所述词语集合中的每个词语,确定所述词语与所述新闻标题包含的词语的重合数量,并根据所述词语与所述新闻标题包含的词语的重合数量,确定所述词语与所述新闻标题的相关度;
针对所述词语集合中的每个词语,确定所述词语在所述新闻文本中的位置,并根据所述词语在所述新闻文本中的位置,确定所述词语的分布位置得分值;
针对所述词语集合中的每个词语,确定所述命名实体集合中与所述词语相匹配的命名实体的数量,并根据所述命名实体集合中与所述词语相匹配的命名实体的数量,确定所述词语与所述命名实体集合的匹配度;
针对所述词语集合中的每个词语,将所述词语在所述新闻文本中出现的概率、所述词语与所述新闻标题的相关度、所述词语的分布位置得分值及所述词语与所述命名实体集合的匹配度进行加权求和运算,得到所述词语的总得分值。
可选的,所述根据所述词语与所述新闻标题包含的词语的重合数量,确定所述词语与所述新闻标题的相关度,包括:
根据以下公式计算所述词语与所述新闻标题的相关度:
Figure 571437DEST_PATH_IMAGE001
其中,
Figure 501216DEST_PATH_IMAGE002
为所述词语集合中的第i个词语与所述新闻标题的相关度,
Figure 23464DEST_PATH_IMAGE003
为 所述词语集合中的第i个词语,title表示所述新闻标题,
Figure 440408DEST_PATH_IMAGE004
表示所述词语集合中的第i 个词语与所述新闻标题包含的词语的重合数量。
可选的,所述根据所述词语在所述新闻文本中的位置,确定所述词语的分布位置得分值,包括:
根据以下公式确定所述词语的分布位置得分值:
Figure 389909DEST_PATH_IMAGE005
其中,
Figure 275826DEST_PATH_IMAGE006
为所述词语集合中的第i个词语的分布位置得分值,
Figure 398502DEST_PATH_IMAGE003
为所述词 语集合中的第i个词语,
Figure 561630DEST_PATH_IMAGE007
表示所述词语集合中的第i个词语分布在所述新 闻文本的前三句,
Figure 557399DEST_PATH_IMAGE008
表示所述词语集合中的第i个词语分布在所述新闻文 本的后三句,n为所述新闻文本包含的句子的数量。
可选的,所述根据所述命名实体集合中与所述词语相匹配的命名实体的数量,确定所述词语与所述命名实体集合的匹配度,包括:
根据以下公式计算所述词语与所述命名实体集合的匹配度:
Figure 805978DEST_PATH_IMAGE009
其中,
Figure 794663DEST_PATH_IMAGE010
为所述词语集合中的第i个词语与所述命名实体集合的匹配度,
Figure 609035DEST_PATH_IMAGE003
为所述词语集合中的第i个词语,
Figure 165918DEST_PATH_IMAGE011
为所述词语集合中的第i个词语在所述命名实体集 合中所匹配的命名实体的数量。
可选的,所述将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中进行处理,得到所述词语集合对应的词语得分值矩阵之前,所述方法还包括:
基于预设样本集,采用主成分分析法对预先构建的关键词提取模型进行训练,得到所述训练好的关键词提取模型;其中,所述预设样本集中的每条样本数据均包括用于描述样本新闻视频的新闻内容的样本新闻文本、所述样本新闻文本对应的词语集合、所述样本新闻视频的新闻标题、预设的命名实体集合以及所述样本新闻视频的内容关键词;在对所述预先构建的关键词提取模型进行训练时,每条所述样本数据中的所述样本新闻文本、所述样本新闻文本对应的词语集合、所述样本新闻视频的新闻标题及预设的命名实体集合为所述预先构建的关键词提取模型的输入,每条所述样本数据中的所述样本新闻视频的内容关键词为所述预先构建的关键词提取模型的输出。
可选的,所述对目标新闻视频进行内容提取操作,得到用于描述所述目标新闻视频的新闻文本,包括:
对所述目标新闻视频的视频流进行分帧操作,并对所述分帧操作得到的多个视频帧图像均进行光学字符识别操作,得到每个所述视频帧图像对应的第一文本片段;
基于所述多个视频帧图像,对所述目标新闻视频的音频流进行分段操作,得到每个所述视频帧图像对应的音频片段,并对每个所述视频帧图像对应的音频片段进行语音识别操作,得到每个所述视频帧图像对应的第二文本片段;
根据每个所述视频帧图像对应的第一文本片段和第二文本片段,确定每个所述视频帧图像对应的目标文本片段;
按照视频帧图像对应的时间节点由早到晚的顺序,将所述多个视频帧图像对应的多个目标文本片段进行拼接,得到所述新闻文本。
第二方面,本申请实施例提供一种终端设备,包括:
第一处理单元,用于对目标新闻视频进行内容提取操作,得到用于描述所述目标新闻视频的新闻文本,并对所述新闻文本进行分词处理,得到所述新闻文本对应的词语集合;
第一获取单元,用于确定所述目标新闻视频的新闻标题,以及获取预设的命名实体集合;
第二处理单元,用于将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中进行处理,得到所述词语集合对应的词语得分值矩阵;其中,所述词语得分值矩阵中每个元素的值用于表示所述元素在所述词语集合中对应的词语的总得分值;所述词语的总得分值是根据所述词语在所述新闻文本中出现的概率、所述词语与所述新闻标题的相关度、所述词语在所述新闻文本中的分布位置得分值以及所述词语与所述命名实体集合的匹配度确定得到的;
第一确定单元,用于根据所述词语得分值矩阵确定所述词语集合中满足预设条件的目标词语,并将所述目标词语确定为所述新闻视频的内容关键词。
第三方面,本申请实施例提供一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面或第一方面的任意可选方式所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面的任意可选方式所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面或第一方面的任意可选方式所述的方法。
实施本申请实施例提供的一种新闻视频的内容关键词提取方法、终端设备及计算机可读存储介质具有以下有益效果:
本申请实施例提供的一种新闻视频的内容关键词提取方法,通过对目标新闻视频进行内容提取操作,得到用于描述目标新闻视频的新闻文本,并对该新闻文本进行分词处理,得到该新闻文本对应的词语集合;确定目标新闻视频的新闻标题,以及获取预设的命名实体集合;将上述新闻文本、词语集合、新闻标题以及命名实体集合输入至训练好的关键词提取模型中进行处理,得到词语集合对应的词语得分值矩阵;其中,词语得分值矩阵中每个元素的值用于表示该元素在词语集合中对应的词语的总得分值;根据词语得分值矩阵确定词语集合中满足预设条件的目标词语,并将目标词语确定为新闻视频的内容关键词。由于新闻视频的内容关键词通常与新闻标题有很大的相关度,且新闻视频的内容关键词在新闻文本中出现的频率以及分布位置通常具有一定的规律性,且新闻视频的内容关键词属于一些固定的命名实体,因此,本方案通过根据词语集合中每个词语在新闻文本中出现的概率、每个词语与新闻标题的相关度、每个词语在新闻文本中的分布位置得分值以及每个词语与命名实体集合的匹配度来确定每个词语的总得分值,即该总得分值是综合考虑新闻文本的上述自然语言特点得到的,从而使得基于每个词语的总得分值确定出的内容关键词能够更加准确地概括新闻文本的内容,提高了提取出的内容关键词的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种新闻视频的内容关键词提取方法的示意性流程图;
图2是本申请实施例提供的一种关键词提取模型的结构示意图;
图3是本申请实施例提供的一种新闻视频的内容关键词提取方法中S13的具体实现流程图;
图4是本申请实施例提供的一种终端设备的结构示意图;
图5是本申请另一实施例提供的一种终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
还应当理解,在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
请参阅图1,图1是本申请实施例提供的一种新闻视频的内容关键词提取方法的示意性流程图。本申请实施例提供的新闻视频的内容关键词提取方法的执行主体为终端设备,终端设备可以是智能手机或平板电脑等移动终端。如图1所示的新闻视频的内容关键词提取方法可以包括S11~S14,详述如下:
S11:对目标新闻视频进行内容提取操作,得到用于描述所述目标新闻视频的新闻文本,并对所述新闻文本进行分词处理,得到所述新闻文本对应的词语集合。
在S11中,目标新闻视频可以是任一需要提取内容关键词的新闻视频。其中,新闻视频指视频的内容为新闻报道的视频。
本申请实施例中,终端设备可以从各种新闻网站或视频网站中获取目标新闻视频。终端设备获取到目标新闻视频后,对目标新闻视频进行内容提取操作,以将目标新闻视频所表达的新闻内容转换为新闻文本。
在本申请的一个实施例中,目标新闻视频所表达的新闻内容可以由目标新闻视频包括的各个视频帧图像所表达的新闻内容组成,基于此,终端设备对目标新闻视频进行内容提取操作具体可以包括以下步骤:
对目标新闻视频的视频流进行分帧操作,并对该分帧操作得到的多个视频帧图像均进行光学字符识别操作,得到每个视频帧图像对应的第一文本片段;
基于上述多个视频帧图像,对目标新闻视频的音频流进行分段操作,得到每个视频帧图像对应的音频片段,并对每个视频帧图像对应的音频片段进行语音识别操作,得到每个视频帧图像对应的第二文本片段;
根据每个视频帧图像对应的第一文本片段和第二文本片段,确定每个视频帧图像对应的目标文本片段;
按照视频帧图像对应的时间节点由早到晚的顺序,将上述多个视频帧图像对应的多个目标文本片段进行拼接,得到用于描述目标新闻视频的新闻文本。
本申请实施例中,第一文本片段和第二文本片段均包括至少一个句子。
由于每个视频帧图像所表达的新闻内容可能会在该视频帧图像中以字幕形式显示,也可能会在该视频帧图像对应的音频片段中以音频形式表达,因此,终端设备得到每个视频帧图像对应的第一文本片段和第二文本片段后,可以将每个视频帧图像对应的第一文本片段和第二文本片段进行组合,得到每个视频帧图像对应的准文本片段,并对每个视频帧图像对应的准文本片段中重复的句子进行去重处理,得到每个视频帧图像对应的目标文本片段。
示例性的,假如某个视频帧图像对应的第一文本片段包括句子S1、句子S2及句子S3,该视频帧图像对应的第二文本片段包括句子S1、句子S3及句子S4,则将该视频帧图像对应的第一文本片段和第二文本片段进行组合得到的准文本片段包括句子S1、句子S1、句子S2、句子S3、句子S3及句子S4,对该准文本片段中重复的句子进行去重处理,得到的该视频帧图像对应的目标文本片段中包括句子S1、句子S2、句子S3及句子S4
视频帧图像对应的时间节点指该视频帧图像在目标新闻视频中对应的时间。示例性的,假如目标新闻视频的总时长为10分钟,该目标新闻视频包括的第一视频帧图像在目标新闻视频中对应的时间为3分40秒,则第一视频帧图像对应的时间节点为3分40秒;该目标新闻视频包括的第二视频帧图像在目标新闻视频中对应的时间为4分01秒,则第二视频帧图像对应的时间节点为4分01秒。
需要说明的是,时间节点早的视频帧图像对应的目标文本片段排列在时间节点晚的视频帧图像对应的目标文本片段之前。示例性的,假如第一视频帧图像对应的时间节点早于第二视频帧图像对应的时间节点,则在新闻文本中,第一视频帧图像对应的目标文本片段排列在第二视频帧图像对应的目标文本片段之前。
终端设备得到用于描述目标新闻视频的新闻文本后,对新闻文本进行分词操作,得到多个词语,终端设备对该多个词语进行去停用词操作和去重操作,并将去停用词操作和去重操作后剩余的词语构成的词语集合确定为新闻文本对应的词语集合。
S12:确定所述目标新闻视频的新闻标题,以及获取预设的命名实体集合。
由于新闻标题通常会出现在新闻视频的多个视频帧图像中,因此,在本申请的一个实施例中,终端设备得到每个视频帧图像对应的目标文本片段后,若检测到至少有预设数目个视频帧图像对应的目标文本片段中均包括同一个句子,则终端设备可以从包括该句子的任一目标文本片段中提取该句子,并将该句子确定为目标新闻视频的新闻标题。其中,预设数目可以根据实际需求设置。
由于每个新闻视频通常都会有视频名称,而视频名称通常能够高度概括新闻视频的新闻内容,因此,在本申请的另一个实施例中,终端设备可以获取目标新闻视频的视频名称,并将目标新闻视频的视频名称确定为目标新闻视频的新闻标题。示例性的,假如某个目标新闻视频的视频名称为“2019年奥斯卡颁奖典礼”,则终端设备可以将“2019年奥斯卡颁奖典礼”确定为该目标新闻视频的新闻标题。
在自然语言学领域,具有特定含义的常见实体,如机构名、专有名词、人名、地名、时间及数量短语等统称为命名实体,通过命名实体可以对词语进行归类。通常,新闻视频的内容关键词从词语属性上看都属于命名实体,因此,可以通过判断词语集合中的各个词语与预设的命名实体集合的匹配度来确定词语集合中的各个词语可作为内容关键词的可能性。
其中,预设的命名实体集合可以根据实际需求设置,例如,预设的命名实体集合可以包括机构名、专有名词、人名、地名、时间及数量短语等命名实体。某个词语与预设的命名实体集合的匹配度可以根据该词语与命名实体集合中包括的各个命名实体的匹配度来确定。示例性的,当某个词语所属的类别为命名实体集合中的某个命名实体时,则表示该词语与该命名实体相匹配。
终端设备可以预先将预设的命名实体集合存储在其存储器中。
本申请实施例中,终端设备可以从其存储器中获取预设的命名实体集合。
S13:将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中进行处理,得到所述词语集合对应的词语得分值矩阵。
本申请实施例中,词语得分值矩阵中的每个元素对应词语集合中的一个词语,词语得分值矩阵中的每个元素的值用于表示该元素在词语即和中对应的词语的总得分值。词语的总得分值是根据该词语在所述新闻文本中出现的概率、该词语与所述新闻标题的相关度、该词语在所述新闻文本中的分布位置得分值以及该词语与所述命名实体集合的匹配度确定得到的。
具体的,终端设备将新闻文本、词语集合、新闻标题以及命名实体集合输入至训练好的关键词提取模型中后,该关键词提取模型会先计算词语集合中的每个词语在新闻文本中出现的概率,以及计算词语集合中的每个词语与新闻标题的相关度,以及计算词语集合中的每个词语在新闻文本中的分布位置得分值,以及计算词语集合中的每个词语与所述命名实体集合的匹配度。
然后,针对词语集合中的每个词语,关键词提取模型会根据该词语在新闻文本中出现的概率、该词语与新闻标题的相关度、该词语在新闻文本中的分布位置得分值以及该词语与所述命名实体集合的匹配度,计算该词语的总得分值。关键词提取模型得到词语集合中的所有词语的总得分值后,可以以矩阵形式输出上述所有词语的总得分值,而以矩阵形式表示的所有词语的总得分值即为词语集合对应的词语得分值矩阵。
请参阅图2,图2是本申请实施例提供的一种预设的关键词提取模型的示意性结构图,如图2所示,预设的关键词提取模型20可以包括文档主题生成(Latent DirichletAllocation,LDA)单元21、相关度计算单元22、分布位置得分值计算单元23、匹配度计算单元24及总得分值计算单元25。
其中,LDA单元21的输入端、相关度计算单元22的输入端、分布位置得分值计算单元23的输入端以及匹配度计算单元24的输入端构成关键词提取模型的输入端,LDA单元21的输出端、相关度计算单元22的输出端、分布位置得分值计算单元23的输出端以及匹配度计算单元24的输出端均与总得分值计算单元25的输入端连接,总得分值计算单元25的输出端为关键词提取模型的输出端。
基于此,在本申请的一个实施例中,S13具体可以包括如图3所示的S131~S136,详述如下:
S131:将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中。
S132:针对所述词语集合中的每个词语,通过文档主题生成单元确定所述词语在所述新闻文本中出现的概率。
本申请实施例中,词语集合中的任意一个词语在新闻文本中出现的概率可以指该词语在新闻文本中出现的频率。
终端设备将新闻文本以及该新闻文本对应的词语集合输入至关键词提取模型中后,针对词语集合中的每个词语,可以通过LDA单元21确定该词语在上述新闻文本中出现的概率。
在实际应用中,文档主题生成单元具体可以是现有的LDA模型。
需要说明的是,由于LDA模型的结构和原理为现有技术,因此,通过LDA模型确定词语在新闻文本中出现的概率的具体过程可以参考现有技术中的相关描述,此处不再赘述。
S133:针对所述词语集合中的每个词语,确定所述词语与所述新闻标题包含的词语的重合数量,并根据所述词语与所述新闻标题包含的词语的重合数量,确定所述词语与所述新闻标题的相关度。
本申请实施例中,终端设备将词语集合与新闻标题输入至关键词提取模型中后,针对词语集合中的每个词语,可以在相关度计算单元22中确定该词语与新闻标题包含的词语的重合数量,并根据该词语与新闻标题包含的词语的重合数量,确定该词语与新闻标题的相关度。
在本申请的一个实施例中,终端设备根据词语与新闻标题包含的词语的重合数量,确定该词语与新闻标题的相关度,具体可以包括以下步骤:
根据以下公式计算所述词语与所述新闻标题的相关度:
Figure 275694DEST_PATH_IMAGE012
其中,
Figure 677857DEST_PATH_IMAGE013
为所述词语集合中的第i个词语与所述新闻标题的相关度,
Figure 674632DEST_PATH_IMAGE003
为所 述词语集合中的第i个词语,title表示所述新闻标题,
Figure 199154DEST_PATH_IMAGE004
表示所述词语集合中的第i个 词语与所述新闻标题包含的词语的重合数量。
本申请实施例中,
Figure 422325DEST_PATH_IMAGE014
表示新闻标题中每有一个词语与词语集合中的第i个词语 重合,则将第i个词语与新闻标题的相关度加1。其中,两个词语重合用于表示两个词语完全 相同或两个词语互为近义词。
示例性的,假如词语集合中的第一词语与新闻标题中包含的第二词语相同,则表示词语集合中的第一词语与新闻标题中包含的第二词语重合,则词语集合中的第一词语与新闻标题包含的词语的重合数量为1,那么,词语集合中的第一词语与新闻标题的相关度为1。
S134:针对所述词语集合中的每个词语,确定所述词语在所述新闻文本中的位置,并根据所述词语在所述新闻文本中的位置,确定所述词语的分布位置得分值。
本申请实施例中,终端设备将词语集合与新闻文本输入至关键词提取模型中后,针对词语集合中的每个词语,可以在分布位置得分值计算单元23中确定该词语在新闻文本中的位置,并根据该词语在新闻文本中的位置,确定该词语的分布位置得分值。
在本申请的一个实施例中,终端设备根据词语在新闻文本中的位置,确定该词语的分布位置得分值,具体可以包括以下步骤:
根据以下公式确定所述词语的分布位置得分值:
Figure 237965DEST_PATH_IMAGE015
其中,
Figure 230192DEST_PATH_IMAGE006
为所述词语集合中的第i个词语的分布位置得分值,
Figure 925616DEST_PATH_IMAGE003
为所述词语 集合中的第i个词语,
Figure 495137DEST_PATH_IMAGE007
表示所述词语集合中的第i个词语分布在所述新闻文本 的前三句,
Figure 81845DEST_PATH_IMAGE008
表示所述词语集合中的第i个词语分布在所述新闻文本的后三 句,n为所述新闻文本包含的句子的数量。
本申请实施例中,
Figure 990895DEST_PATH_IMAGE016
表示词语集合中的第i个词语每分布在新闻文本的前三句 一次,将第i个词语的分布位置得分值加1,其中,
Figure 794903DEST_PATH_IMAGE017
Figure 851721DEST_PATH_IMAGE018
表示词语集合中的第i个词语每分布在新闻文本的后三句一次,将第i个词 语的分布位置得分值加1,其中,
Figure 399377DEST_PATH_IMAGE019
示例性的,假如词语集合中的第一个词语分别分布在新闻文本的第一句、第二句及第三句,则该词语的分布位置得分值为3;假如词语集合中的第三个词语分布在新闻文本的第四句,新闻文本共包括15个句子,则该词语的分布位置得分值为1-log3/log15;假如词语集合中的第五个词语仅分布在新闻文本的倒数第二句,则该词语的分布位置得分值为1。
S135:针对所述词语集合中的每个词语,确定所述命名实体集合中与所述词语相匹配的命名实体的数量,并根据所述命名实体集合中与所述词语相匹配的命名实体的数量,确定所述词语与所述命名实体集合的匹配度。
本申请实施例中,终端设备将词语集合与预设的命名实体集合输入至关键词提取模型中后,针对词语集合中的每个词语,可以在匹配度计算单元24中确定命名实体集合中与该词语相匹配的命名实体,并统计命名实体集合中与该词语相匹配的命名实体的数量,以及根据命名实体集合中该词语相匹配的命名实体的数量,确定该词语与命名实体集合的匹配度。
在本申请的一个实施例中,终端设备根据命名实体集合中与某个词语相匹配的命名实体的数量,确定该词语与命名实体集合的匹配度,具体可以包括以下步骤:
根据以下公式计算所述词语与所述命名实体集合的匹配度:
Figure 162934DEST_PATH_IMAGE009
其中,
Figure 13209DEST_PATH_IMAGE010
为所述词语集合中的第i个词语与所述命名实体集合的匹配度,
Figure 432689DEST_PATH_IMAGE003
为所述词语集合中的第i个词语,
Figure 908670DEST_PATH_IMAGE020
为所述词语集合中的第i个词语在所述命名实体集 合中所匹配的命名实体的数量。
本申请实施例中,命名实体集合中的某个命名实体与词语集合中的某个词语相匹配表示该命名实体即为该词语所属的类别。
示例性的,假如命名实体集合中包括“地名”这一命名实体,而词语集合中的第一词语所属的类别为地名,则说明命名实体集合中的“地名”这一命名实体与词语集合中的第一词语相匹配。
Figure 526733DEST_PATH_IMAGE021
表示预设的命名实体集合中每有一个命名实体与词语集合中的第i个词语 相匹配,便将第i个词语与命名实体集合的匹配度加1。
示例性的,假如预设的命名实体集合中有两个命名实体均与词语集合中的某个词语相匹配,则该词语与命名实体集合的匹配度为2。
S136:针对所述词语集合中的每个词语,将所述词语在所述新闻文本中出现的概率、所述词语与所述新闻标题的相关度、所述词语的分布位置得分值及所述词语与所述命名实体集合的匹配度进行加权求和运算,得到所述词语的总得分值。
本申请实施例中,终端设备得到词语集合中的每个词语在新闻文本中出现的概率、每个词语与新闻标题的相关度、每个词语的分布位置得分值以及每个词语与命名实体集合的匹配度后,针对词语集合集合中的每个词语,终端设备可以将该词语在新闻文本中出现的概率、该词语与新闻标题的相关度、该词语的分布位置得分值以及该词语与命名实体集合的匹配度进行加权求和运算,得到该词语的总得分值。其中,上述各个加权项(即每个词语在新闻文本中出现的概率、每个词语与新闻标题的相关度、每个词语的分布位置得分值以及每个词语与命名实体集合的匹配度)对应的加权系数可以根据实际需求进行设置,也可以是在对关键词提取模型的训练过程中学习得到的。
需要说明的是,本申请实施例中,S132、S133、S134及S135可以为并列的步骤,即终端设备可以同时执行S132、S133、S134及S135。
在本申请的一个实施例中,上述训练好的关键词提取模型可以是基于预设样本集,采用主成分分析法对预先构建的关键词提取模型进行训练得到的。
其中,预设样本集中的每条样本数据均包括用于描述样本新闻视频的新闻内容的样本新闻文本、该样本新闻文本对应的词语集合、该样本新闻视频的新闻标题、预设的命名实体集合以及该样本新闻视频的内容关键词。每条样本数据中包括的样本新闻视频的内容关键词可以是由人工从该样本新闻视频的样本新闻文本中提取得到的。预先构建的关键词提取模型的结构可以如图2所示,此处不再赘述。
在对预先构建的关键词提取模型进行训练时,可以将每条样本数据中包括的用于描述样本新闻视频的新闻内容的样本新闻文本、该样本新闻文本对应的词语集合、该样本新闻视频的新闻标题以及预设的命名实体集合作为关键词提取模型的输入,将每条样本数据中包括的样本新闻视频的内容关键词作为关键词提取模型的输出,采用主成分分析法对预先构建的关键词提取模型进行训练。在采用主成分分析法对关键词提取模型进行训练的过程中,关键词提取模型可以学习到上述各个加权项对应的加权系数。
在关键词提取模型训练完成后,终端设备可以将训练完成的关键词提取模型进行存储。其中,训练完成的关键词提取模型即为S13中所述的训练好的关键词提取模型。
S14:根据所述词语得分值矩阵确定所述词语集合中满足预设条件的目标词语,并将所述目标词语确定为所述新闻视频的内容关键词。
本申请实施例中,预设条件可以根据实际需求设置,此处不做限制。
词语集合中满足预设条件的目标词语的数量可以为一个,也可以为多个,本申请实施例不对目标词语的数量做特别限定。
示例性的,在本申请的一个实施例中,预设条件可以为:词语的总得分值大于预设得分值阈值。其中,预设得分值阈值可以根据实际需求设置。基于此,终端设备可以将词语得分值矩阵中值大于预设得分值阈值的元素在词语集合中对应的词语确定为目标词语。
在本申请的另一个实施例中,预设条件还可以为:按照总得分值从高到低的顺序排列词语集合中的各个词语时,排列在前m。其中,m为大于或等于1的整数。基于此,终端设备可以将词语得分值矩阵中的各个元素按照值从大到小的顺序进行排列,并将排列在前m的元素在词语集合中对应的词语确定为目标词语。需要说明的是,该实施例中确定出的目标词语为m个。
以上可以看出,本申请实施例提供的新闻视频的内容关键词提取方法,通过对目标新闻视频进行内容提取操作,得到用于描述目标新闻视频的新闻文本,并对该新闻文本进行分词处理,得到该新闻文本对应的词语集合;确定目标新闻视频的新闻标题,以及获取预设的命名实体集合;将上述新闻文本、词语集合、新闻标题以及命名实体集合输入至训练好的关键词提取模型中进行处理,得到词语集合对应的词语得分值矩阵;其中,词语得分值矩阵中每个元素的值用于表示该元素在词语集合中对应的词语的总得分值;根据词语得分值矩阵确定词语集合中满足预设条件的目标词语,并将目标词语确定为新闻视频的内容关键词。由于新闻视频的内容关键词通常与新闻标题有很大的相关度,且新闻视频的内容关键词在新闻文本中出现的频率以及分布位置通常具有一定的规律性,且新闻视频的内容关键词属于一些固定的命名实体,因此,本方案通过根据词语集合中每个词语在新闻文本中出现的概率、每个词语与新闻标题的相关度、每个词语在新闻文本中的分布位置得分值以及每个词语与命名实体集合的匹配度来确定每个词语的总得分值,即该总得分值是综合考虑新闻文本的上述自然语言特点得到的,从而使得基于每个词语的总得分值确定出的内容关键词能够更加准确地概括新闻文本的内容,提高了提取出的内容关键词的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
基于上述实施例所提供的新闻视频的内容关键词提取方法,本发明实施例进一步给出实现上述方法实施例的终端设备的实施例。
请参阅图4,图4是本申请实施例提供的一种终端设备的结构示意图。本申请实施例中,终端设备包括的各单元用于执行图1至图3对应的实施例中的各步骤。具体请参阅图1至图3以及图1至图3对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图4所示,终端设备40包括:第一处理单元41、第一获取单元42、第二处理单元43及第一确定单元44。其中:
第一处理单元41用于对目标新闻视频进行内容提取操作,得到用于描述所述目标新闻视频的新闻文本,并对所述新闻文本进行分词处理,得到所述新闻文本对应的词语集合。
第一获取单元42用于确定所述目标新闻视频的新闻标题,以及获取预设的命名实体集合。
第二处理单元43用于将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中进行处理,得到所述词语集合对应的词语得分值矩阵;其中,所述词语得分值矩阵中每个元素的值用于表示所述元素在所述词语集合中对应的词语的总得分值;所述词语的总得分值是根据所述词语在所述新闻文本中出现的概率、所述词语与所述新闻标题的相关度、所述词语在所述新闻文本中的分布位置得分值以及所述词语与所述命名实体集合的匹配度确定得到的。
第一确定单元44用于根据所述词语得分值矩阵确定所述词语集合中满足预设条件的目标词语,并将所述目标词语确定为所述新闻视频的内容关键词。
可选的,第二处理单元43可以包括:第一输入单元、第二确定单元、第三确定单元、第四确定单元、第五确定单元及第六确定单元。其中:
第一输入单元用于将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中。
第二确定单元用于针对所述词语集合中的每个词语,通过文档主题生成单元确定所述词语在所述新闻文本中出现的概率。
第三确定单元用于针对所述词语集合中的每个词语,确定所述词语与所述新闻标题包含的词语的重合数量,并根据所述词语与所述新闻标题包含的词语的重合数量,确定所述词语与所述新闻标题的相关度。
第四确定单元用于针对所述词语集合中的每个词语,确定所述词语在所述新闻文本中的位置,并根据所述词语在所述新闻文本中的位置,确定所述词语的分布位置得分值。
第五确定单元用于针对所述词语集合中的每个词语,确定所述命名实体集合中与所述词语相匹配的命名实体的数量,并根据所述命名实体集合中与所述词语相匹配的命名实体的数量,确定所述词语与所述命名实体集合的匹配度。
第六确定单元用于针对所述词语集合中的每个词语,将所述词语在所述新闻文本中出现的概率、所述词语与所述新闻标题的相关度、所述词语的分布位置得分值及所述词语与所述命名实体集合的匹配度进行加权求和运算,得到所述词语的总得分值。
可选的,第三确定单元具体用于:
根据以下公式计算所述词语与所述新闻标题的相关度:
Figure 672544DEST_PATH_IMAGE012
其中,
Figure 970799DEST_PATH_IMAGE013
为所述词语集合中的第i个词语与所述新闻标题的相关度,
Figure 656996DEST_PATH_IMAGE003
为 所述词语集合中的第i个词语,title表示所述新闻标题,
Figure 598407DEST_PATH_IMAGE004
表示所述词语集合中的第i个 词语与所述新闻标题包含的词语的重合数量。
可选的,第四确定单元具体用于:
根据以下公式确定所述词语的分布位置得分值:
Figure 774173DEST_PATH_IMAGE015
其中,
Figure 168245DEST_PATH_IMAGE006
为所述词语集合中的第i个词语的分布位置得分值,
Figure 658133DEST_PATH_IMAGE003
为所述词 语集合中的第i个词语,
Figure 329416DEST_PATH_IMAGE022
表示所述词语集合中的第i个词语分布在所述 新闻文本的前三句,
Figure 817030DEST_PATH_IMAGE023
表示所述词语集合中的第i个词语分布在所述新 闻文本的后三句,n为所述新闻文本包含的句子的数量。
可选的,第五确定单元具体用于:
根据以下公式计算所述词语与所述命名实体集合的匹配度:
Figure 823032DEST_PATH_IMAGE009
其中,
Figure 851031DEST_PATH_IMAGE010
为所述词语集合中的第i个词语与所述命名实体集合的匹配度,
Figure 501455DEST_PATH_IMAGE003
为所述词语集合中的第i个词语,
Figure 533871DEST_PATH_IMAGE020
为所述词语集合中的第i个词语在所述命名实体集 合中所匹配的命名实体的数量。
可选的,终端设备40还包括训练单元。
训练单元用于基于预设样本集,采用主成分分析法对预先构建的关键词提取模型进行训练,得到所述训练好的关键词提取模型;其中,所述预设样本集中的每条样本数据均包括用于描述样本新闻视频的新闻内容的样本新闻文本、所述样本新闻文本对应的词语集合、所述样本新闻视频的新闻标题、预设的命名实体集合以及所述样本新闻视频的内容关键词;在对所述预先构建的关键词提取模型进行训练时,每条所述样本数据中的所述样本新闻文本、所述样本新闻文本对应的词语集合、所述样本新闻视频的新闻标题及预设的命名实体集合为所述预先构建的关键词提取模型的输入,每条所述样本数据中的所述样本新闻视频的内容关键词为所述预先构建的关键词提取模型的输出。
可选的,第一处理单元可以包括:分帧单元、分段单元、第七确定单元及文本拼接单元。其中:
分帧单元用于对所述目标新闻视频的视频流进行分帧操作,并对所述分帧操作得到的多个视频帧图像均进行光学字符识别操作,得到每个所述视频帧图像对应的第一文本片段。
分段单元用于基于所述多个视频帧图像,对所述目标新闻视频的音频流进行分段操作,得到每个所述视频帧图像对应的音频片段,并对每个所述视频帧图像对应的音频片段进行语音识别操作,得到每个所述视频帧图像对应的第二文本片段。
第七确定单元用于根据每个所述视频帧图像对应的第一文本片段和第二文本片段,确定每个所述视频帧图像对应的目标文本片段。
文本拼接单元用于按照视频帧图像对应的时间节点由早到晚的顺序,将所述多个视频帧图像对应的多个目标文本片段进行拼接,得到所述新闻文本。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参照方法实施例部分,此处不再赘述。
图5是本申请另一实施例提供的一种终端设备的结构示意图。如图5所示,该实施例提供的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52,例如图像深度估计程序。处理器50执行所述计算机程序52时实现上述各个新闻视频的内容关键词提取方法实施例中的步骤,例如图1所示的S11~S14。或者,所述处理器50执行所述计算机程序52时实现上述各终端设备实施例中各模块/单元的功能,例如图4所示单元41~44的功能。
示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由处理器50执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述终端设备5中的执行过程。例如,所述计算机程序52可以被分割成第一处理单元、第一获取单元、第二处理单元及第一确定单元,各单元具体功能请参阅图4对应地实施例中的相关描述,此处不赘述。
所述终端设备可包括但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述新闻视频的内容关键词提取方法。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述新闻视频的内容关键词提取方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述终端设备的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参照其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种新闻视频的内容关键词提取方法,其特征在于,包括:
对目标新闻视频进行内容提取操作,得到用于描述所述目标新闻视频的新闻文本,并对所述新闻文本进行分词处理,得到所述新闻文本对应的词语集合;
确定所述目标新闻视频的新闻标题,以及获取预设的命名实体集合;
将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中进行处理,得到所述词语集合对应的词语得分值矩阵;其中,所述词语得分值矩阵中每个元素的值用于表示所述元素在所述词语集合中对应的词语的总得分值;所述词语的总得分值是根据所述词语在所述新闻文本中出现的概率、所述词语与所述新闻标题的相关度、所述词语在所述新闻文本中的分布位置得分值以及所述词语与所述命名实体集合的匹配度确定得到的;
根据所述词语得分值矩阵确定所述词语集合中满足预设条件的目标词语,并将所述目标词语确定为所述新闻视频的内容关键词。
2.根据权利要求1所述的方法,其特征在于,所述将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中进行处理,得到所述词语集合对应的词语得分值矩阵,包括:
将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中;
针对所述词语集合中的每个词语,通过文档主题生成单元确定所述词语在所述新闻文本中出现的概率;
针对所述词语集合中的每个词语,确定所述词语与所述新闻标题包含的词语的重合数量,并根据所述词语与所述新闻标题包含的词语的重合数量,确定所述词语与所述新闻标题的相关度;
针对所述词语集合中的每个词语,确定所述词语在所述新闻文本中的位置,并根据所述词语在所述新闻文本中的位置,确定所述词语的分布位置得分值;
针对所述词语集合中的每个词语,确定所述命名实体集合中与所述词语相匹配的命名实体的数量,并根据所述命名实体集合中与所述词语相匹配的命名实体的数量,确定所述词语与所述命名实体集合的匹配度;
针对所述词语集合中的每个词语,将所述词语在所述新闻文本中出现的概率、所述词语与所述新闻标题的相关度、所述词语的分布位置得分值及所述词语与所述命名实体集合的匹配度进行加权求和运算,得到所述词语的总得分值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述词语与所述新闻标题包含的词语的重合数量,确定所述词语与所述新闻标题的相关度,包括:
根据以下公式计算所述词语与所述新闻标题的相关度:
Figure 170895DEST_PATH_IMAGE002
其中,
Figure 936638DEST_PATH_IMAGE004
为所述词语集合中的第i个词语与所述新闻标题的相关度,
Figure 919637DEST_PATH_IMAGE005
为所述 词语集合中的第i个词语,title表示所述新闻标题,
Figure 908322DEST_PATH_IMAGE007
表示所述词语集合中的第i个词 语与所述新闻标题包含的词语的重合数量。
4.根据权利要求2所述的方法,其特征在于,所述根据所述词语在所述新闻文本中的位置,确定所述词语的分布位置得分值,包括:
根据以下公式确定所述词语的分布位置得分值:
Figure 988273DEST_PATH_IMAGE009
其中,
Figure 279577DEST_PATH_IMAGE011
为所述词语集合中的第i个词语的分布位置得分值,
Figure 625239DEST_PATH_IMAGE005
为所述词语集 合中的第i个词语,
Figure 292981DEST_PATH_IMAGE013
表示所述词语集合中的第i个词语分布在所述新闻文本 的前三句,
Figure DEST_PATH_IMAGE015
表示所述词语集合中的第i个词语分布在所述新闻文本的后 三句,n为所述新闻文本包含的句子的数量。
5.根据权利要求2所述的方法,其特征在于,所述根据所述命名实体集合中与所述词语相匹配的命名实体的数量,确定所述词语与所述命名实体集合的匹配度,包括:
根据以下公式计算所述词语与所述命名实体集合的匹配度:
Figure 820914DEST_PATH_IMAGE016
其中,
Figure 17540DEST_PATH_IMAGE018
为所述词语集合中的第i个词语与所述命名实体集合的匹配度,
Figure 614612DEST_PATH_IMAGE005
为 所述词语集合中的第i个词语,
Figure 617203DEST_PATH_IMAGE020
为所述词语集合中的第i个词语在所述命名实体集合 中所匹配的命名实体的数量。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中进行处理,得到所述词语集合对应的词语得分值矩阵之前,所述方法还包括:
基于预设样本集,采用主成分分析法对预先构建的关键词提取模型进行训练,得到所述训练好的关键词提取模型;其中,所述预设样本集中的每条样本数据均包括用于描述样本新闻视频的新闻内容的样本新闻文本、所述样本新闻文本对应的词语集合、所述样本新闻视频的新闻标题、预设的命名实体集合以及所述样本新闻视频的内容关键词;在对所述预先构建的关键词提取模型进行训练时,每条所述样本数据中的所述样本新闻文本、所述样本新闻文本对应的词语集合、所述样本新闻视频的新闻标题及预设的命名实体集合为所述预先构建的关键词提取模型的输入,每条所述样本数据中的所述样本新闻视频的内容关键词为所述预先构建的关键词提取模型的输出。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述对目标新闻视频进行内容提取操作,得到用于描述所述目标新闻视频的新闻文本,包括:
对所述目标新闻视频的视频流进行分帧操作,并对所述分帧操作得到的多个视频帧图像均进行光学字符识别操作,得到每个所述视频帧图像对应的第一文本片段;
基于所述多个视频帧图像,对所述目标新闻视频的音频流进行分段操作,得到每个所述视频帧图像对应的音频片段,并对每个所述视频帧图像对应的音频片段进行语音识别操作,得到每个所述视频帧图像对应的第二文本片段;
根据每个所述视频帧图像对应的第一文本片段和第二文本片段,确定每个所述视频帧图像对应的目标文本片段;
按照视频帧图像对应的时间节点由早到晚的顺序,将所述多个视频帧图像对应的多个目标文本片段进行拼接,得到所述新闻文本。
8.一种终端设备,其特征在于,包括:
第一处理单元,用于对目标新闻视频进行内容提取操作,得到用于描述所述目标新闻视频的新闻文本,并对所述新闻文本进行分词处理,得到所述新闻文本对应的词语集合;
第一获取单元,用于确定所述目标新闻视频的新闻标题,以及获取预设的命名实体集合;
第二处理单元,用于将所述新闻文本、所述词语集合、所述新闻标题以及所述命名实体集合输入至训练好的关键词提取模型中进行处理,得到所述词语集合对应的词语得分值矩阵;其中,所述词语得分值矩阵中每个元素的值用于表示所述元素在所述词语集合中对应的词语的总得分值;所述词语的总得分值是根据所述词语在所述新闻文本中出现的概率、所述词语与所述新闻标题的相关度、所述词语在所述新闻文本中的分布位置得分值以及所述词语与所述命名实体集合的匹配度确定得到的;
第一确定单元,用于根据所述词语得分值矩阵确定所述词语集合中满足预设条件的目标词语,并将所述目标词语确定为所述新闻视频的内容关键词。
9.一种终端设备,其特征在于,所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202010919780.5A 2020-09-04 2020-09-04 一种新闻视频的内容关键词提取方法、终端设备及介质 Active CN111814770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010919780.5A CN111814770B (zh) 2020-09-04 2020-09-04 一种新闻视频的内容关键词提取方法、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010919780.5A CN111814770B (zh) 2020-09-04 2020-09-04 一种新闻视频的内容关键词提取方法、终端设备及介质

Publications (2)

Publication Number Publication Date
CN111814770A true CN111814770A (zh) 2020-10-23
CN111814770B CN111814770B (zh) 2021-01-15

Family

ID=72860686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010919780.5A Active CN111814770B (zh) 2020-09-04 2020-09-04 一种新闻视频的内容关键词提取方法、终端设备及介质

Country Status (1)

Country Link
CN (1) CN111814770B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112417847A (zh) * 2020-11-19 2021-02-26 湖南红网新媒体集团有限公司 一种新闻内容安全监测方法、***、装置和存储介质
CN112579772A (zh) * 2020-12-14 2021-03-30 上海明略人工智能(集团)有限公司 基于企业简介文本抽取企业标签的方法及***
CN112800757A (zh) * 2021-04-06 2021-05-14 杭州远传新业科技有限公司 关键词生成方法、装置、设备及介质
CN112948633A (zh) * 2021-04-01 2021-06-11 北京奇艺世纪科技有限公司 一种内容标签生成方法、装置及电子设备
CN112989165A (zh) * 2021-03-26 2021-06-18 杭州有数金融信息服务有限公司 一种计算舆情实体关联度的方法
CN113157871A (zh) * 2021-05-27 2021-07-23 东莞心启航联贸网络科技有限公司 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
CN113838460A (zh) * 2020-12-31 2021-12-24 京东科技控股股份有限公司 视频语音识别方法、装置、设备和存储介质
CN114998878A (zh) * 2022-04-28 2022-09-02 支付宝(杭州)信息技术有限公司 关键词识别方法以及装置
WO2023195915A3 (zh) * 2022-04-07 2023-11-30 脸萌有限公司 处理方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110049178A (ko) * 2009-11-04 2011-05-12 동국대학교 산학협력단 온톨로지를 이용한 문서의 주제어 및 관련어 측정 방법 및 장치
CN108052630A (zh) * 2017-12-19 2018-05-18 中山大学 一种基于中文教育视频提取拓展词的方法
CN108170671A (zh) * 2017-12-19 2018-06-15 中山大学 一种提取新闻事件发生时间的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269115A (ja) * 2001-03-08 2002-09-20 Ricoh Co Ltd キーワード抽出装置およびキーワード抽出方法
CN106604125B (zh) * 2016-12-29 2019-06-14 北京奇艺世纪科技有限公司 一种视频字幕的确定方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110049178A (ko) * 2009-11-04 2011-05-12 동국대학교 산학협력단 온톨로지를 이용한 문서의 주제어 및 관련어 측정 방법 및 장치
CN108052630A (zh) * 2017-12-19 2018-05-18 中山大学 一种基于中文教育视频提取拓展词的方法
CN108170671A (zh) * 2017-12-19 2018-06-15 中山大学 一种提取新闻事件发生时间的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
陶洁: "基于新闻文本的关键词提取", 《中国优秀硕士学位论文全文数据库 社会科学II辑》 *
黄丽霞: "面向慕课视频的关键词抽取研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347778B (zh) * 2020-11-06 2023-06-20 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112417847A (zh) * 2020-11-19 2021-02-26 湖南红网新媒体集团有限公司 一种新闻内容安全监测方法、***、装置和存储介质
CN112579772A (zh) * 2020-12-14 2021-03-30 上海明略人工智能(集团)有限公司 基于企业简介文本抽取企业标签的方法及***
CN113838460A (zh) * 2020-12-31 2021-12-24 京东科技控股股份有限公司 视频语音识别方法、装置、设备和存储介质
CN112989165A (zh) * 2021-03-26 2021-06-18 杭州有数金融信息服务有限公司 一种计算舆情实体关联度的方法
CN112989165B (zh) * 2021-03-26 2022-07-01 浙江有数数智科技有限公司 一种计算舆情实体关联度的方法
CN112948633B (zh) * 2021-04-01 2023-09-05 北京奇艺世纪科技有限公司 一种内容标签生成方法、装置及电子设备
CN112948633A (zh) * 2021-04-01 2021-06-11 北京奇艺世纪科技有限公司 一种内容标签生成方法、装置及电子设备
CN112800757B (zh) * 2021-04-06 2021-07-09 杭州远传新业科技有限公司 关键词生成方法、装置、设备及介质
CN112800757A (zh) * 2021-04-06 2021-05-14 杭州远传新业科技有限公司 关键词生成方法、装置、设备及介质
CN113157871B (zh) * 2021-05-27 2021-12-21 宿迁硅基智能科技有限公司 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN113157871A (zh) * 2021-05-27 2021-07-23 东莞心启航联贸网络科技有限公司 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
WO2023195915A3 (zh) * 2022-04-07 2023-11-30 脸萌有限公司 处理方法、装置、电子设备及介质
CN114998878A (zh) * 2022-04-28 2022-09-02 支付宝(杭州)信息技术有限公司 关键词识别方法以及装置

Also Published As

Publication number Publication date
CN111814770B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN111814770B (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
WO2020140373A1 (zh) 一种意图识别方法、识别设备及计算机可读存储介质
US8577882B2 (en) Method and system for searching multilingual documents
WO2017045443A1 (zh) 一种图像检索方法及***
CN110688526A (zh) 基于关键帧识别和音频文本化的短视频推荐方法及***
CN111460153B (zh) 热点话题提取方法、装置、终端设备及存储介质
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
CN114556328B (zh) 数据处理方法、装置、电子设备和存储介质
CN111831804B (zh) 一种关键短语的提取方法、装置、终端设备及存储介质
WO2020103899A1 (zh) 用于生成图文信息的方法和用于生成图像数据库的方法
CN110347866B (zh) 信息处理方法、装置、存储介质及电子设备
CN111708909B (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
CN111444387A (zh) 视频分类方法、装置、计算机设备和存储介质
CN112199588A (zh) 舆情文本筛选方法及装置
CN114461852A (zh) 音视频摘要提取方法、装置、设备及存储介质
US10699078B2 (en) Comment-centered news reader
CN110347900B (zh) 一种关键词的重要度计算方法、装置、服务器及介质
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
US11990131B2 (en) Method for processing a video file comprising audio content and visual content comprising text content
CN114880496A (zh) 多媒体信息话题分析方法、装置、设备及存储介质
CN108563713B (zh) 关键词规则生成方法及装置和电子设备
WO2021103594A1 (zh) 一种默契度检测方法、设备、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhou Fan

Inventor after: Su Hang

Inventor after: Liu Hailiang

Inventor after: Chen Xiaoyan

Inventor after: Tang Wujing

Inventor before: Zhou Fan