CN108595679B - 一种标签确定方法、装置、终端和存储介质 - Google Patents

一种标签确定方法、装置、终端和存储介质 Download PDF

Info

Publication number
CN108595679B
CN108595679B CN201810410803.2A CN201810410803A CN108595679B CN 108595679 B CN108595679 B CN 108595679B CN 201810410803 A CN201810410803 A CN 201810410803A CN 108595679 B CN108595679 B CN 108595679B
Authority
CN
China
Prior art keywords
candidate
determining
candidate word
target
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810410803.2A
Other languages
English (en)
Other versions
CN108595679A (zh
Inventor
王璐
张文明
陈少杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810410803.2A priority Critical patent/CN108595679B/zh
Publication of CN108595679A publication Critical patent/CN108595679A/zh
Application granted granted Critical
Publication of CN108595679B publication Critical patent/CN108595679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种标签确定方法、装置、终端和存储介质,该方法包括:获取至少两个短视频的视频文本,并对各视频文本进行分词处理,确定至少两个候选词;对至少两个候选词进行两两组合,并根据各短视频的视频文本确定各组合中两个候选词之间的相似度;根据各相似度确定无向图,并根据无向图和各相似度确定各候选词的目标权重分数;根据各目标权重分数确定与至少两个短视频对应的预设个数的标签。本发明实施例的技术方案,可以根据短视频的视频文本自动确定短视频的标签,并提高了标签的确定效率和准确度。

Description

一种标签确定方法、装置、终端和存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种标签确定方法、装置、终端和存储介质。
背景技术
随着网络技术的发展,越来越多的用户喜欢观看各式各样的时间较短的短视频。短视频作为一个信息的载体,通常需要打上符合其内容和表现形式的标签,以对内涵信息进行归纳,从而有利于视频内容的组织和编排。
现有技术中,通常利用以下两种方式来确定短视频的标签。一种是将网站人工定义的分区作为短视频的标签,但是这种方式中一个短视频只对应一个分区,标签不够丰富,并且分区的含义较为宽泛,难以描述短视频的特点。另一种是利用人工方式确定短视频的标签,但是由于短视频众多导致这种方式的人工成本太高。可见,现有技术中的标签确定方式均无法快捷的对短视频打上准确的标签。
发明内容
本发明实施例提供了一种标签确定方法、装置、终端和存储介质,以自动确定短视频的标签,提高标签的确定效率和准确度。
第一方面,本发明实施例提供了一种标签确定方法,包括:
获取至少两个短视频的视频文本,并对各所述视频文本进行分词处理,确定至少两个候选词;
对所述至少两个候选词进行两两组合,并根据各所述短视频的视频文本确定各组合中两个候选词之间的相似度;
根据各所述相似度确定无向图,并根据所述无向图和各所述相似度确定各所述候选词的目标权重分数;
根据各所述目标权重分数确定与所述至少两个短视频对应的预设个数的标签。
第二方面,本发明实施例还提供了一种标签确定装置,包括:
候选词确定模块,用于获取至少两个短视频的视频文本,并对各所述视频文本进行分词处理,确定至少两个候选词;
相似度确定模块,用于对所述至少两个候选词进行两两组合,并根据各所述短视频的视频文本确定各组合中两个候选词之间的相似度;
无向图确定模块,用于根据各所述相似度确定无向图;
目标权重分数确定模块,用于根据所述无向图和各所述相似度确定各所述候选词的目标权重分数;
第一标签确定模块,用于根据各所述目标权重分数确定与所述至少两个短视频对应的预设个数的标签。
第三方面,本发明实施例还提供了一种终端,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的标签确定方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的标签确定方法。
本实施例的技术方案,通过对至少两个短视频的视频文本进行分词处理,确定至少两个候选词,并对至少两个候选词进行两两组合,根据各短视频的视频文本确定各组合中两个候选词之间的相似度,根据各相似度确定无向图,并根据无向图和各相似度确定各候选词的目标权重分数,根据各目标权重分数确定与至少两个短视频对应的预设个数的标签,从而可以自动确定与多个短视频对应的多个标签,方便快捷,提高了标签的确定效率和准确度,并且丰富了标签内容。
附图说明
图1是本发明实施例一提供的一种标签确定方法的流程图;
图2是本发明实施例一提供的确定标签方法中的一种无向图的示例;
图3是本发明实施例二提供的一种标签确定方法的流程图;
图4是本发明实施例三提供的一种标签确定装置的结构示意图;
图5是本发明实施例四提供的一种终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种标签确定方法的流程图,本实施例可适用于确定多个短视频对应的标签的情况,尤其是可以用于直播平台中确定直播间中录制的短视频的标签的场景,同时也可以用于其他需要确定标签的应用场景中。该方法可以由标签确定装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于数据处理终端中。该方法具体包括以下步骤:
S110、获取至少两个短视频的视频文本,并对各视频文本进行分词处理,确定至少两个候选词。
其中,短视频可以是指在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的推送的视频内容。本实施例中的短视频的时间长度可以是但不局限于几秒到几分钟。本实施例中的短视频可以是截取的直播视频片段,也可以是对直播视频进行优化处理得到的视频。视频文本是指与短视频内容相关的文本,视频文本可以包括但不限于短视频的标题文本和弹幕文本。分词处理可以包括但不限于中文分词、识别专有名词以及去停用词。通过对每个视频文本进行分词处理,提取出可以作为短视频标签的候选词。
可选的,S110中对各视频文本进行分词处理,确定多个候选词,包括:
对各视频文本进行分词,并确定分词得到的各词语的词性;过滤各词语中的停用词,并根据各词语的词性确定与预设词性对应的各待选词;对各待选词进行去重处理,并将去重后得到的各待选词确定为候选词。
其中,利用分词技术对每个视频文本进行分词后得到多个词语,确定每个词语的词性。通过过滤各词语中的停用词,比如:“啊”、“吧”等,可以减少词语的数量,加快候选词的确定效率。词性可以包括但不限于名词、形容词、动词、代词等。预设词性可以是根据用户需求和短视频内容预先指定的词性。可选的,预设词性可以包括名词和形容词,即将各视频文本中词性为名词或形容词的词语确定为待选词。通过去重操作,删去重复的待选词,并将去重后的待选词作为候选词,使得任意两个候选词均不同。
S120、对至少两个候选词进行两两组合,并根据各短视频的视频文本确定各组合中两个候选词之间的相似度。
其中,本实施例中的一个组合是指从至少两个候选词中任意选取两个候选词作为一组,组合的数量是指从至少两个候选词中任意选取两个候选词的所有组合的个数。本实施例中不考虑组合中两个候选词的排序问题,即候选词A和候选词B组成的组合,与候选词B和候选词A组成的组合是相同的组合。示例性的,当有4个候选词,分别记为a、b、c和d时,进行两两组合后共得到6个组合,分别为:a与b、a与c、a与d、b与c、b与d以及c与d。根据组合中的每个候选词对应的视频文本确定该组合中的两个候选词之间的相似度。
可选的,根据如下公式确定各组合中的两个候选词vi和vj之间的相似度:
Figure BDA0001648004650000051
其中,wij是组合中的候选词vi和候选词vj之间的相似度,fi是出现候选词vi的短视频个数,fj是出现候选词vj的短视频个数,α和β分别是候选词vi和候选词vj的权重系数,Ri∩Rj是同时出现候选词vi和候选词vj的第一短视频集合,r是第一短视频集合中的一个短视频,Ir(i,j)是根据短视频r的视频文本确定的在短视频r中同时出现候选词vi和候选词vj的共现次数,wr是第一短视频集合中的短视频个数。
在本实施例中,利用上述公式可以计算得到每个组合中的两个候选词之间的相似度。其中,下标i和下标j是用于表征每个组合中两个不同的候选词的字母标识。在本实施例中,除了利用两个不同的字母标识,也可以利用两个不同的数字标识来表征两个不同的候选词,比如v1和v2。权重系数α和β的取值可以是0到1之间的数值。示例性的,假设出现候选词vi的短视频有R1、R2和R3,即出现候选词vi的短视频个数fi为3;出现候选词vj的短视频R1、R2和R4,即出现候选词vj的短视频个数fj为3;可见同时出现候选词vi和候选词vj的第一短视频集合为R1和R2,经统计在R1中同时出现候选词vi和候选词vj的共现次数为3,在R2中同时出现候选词vi和候选词vj的共现次数为1;候选词vi的权重系数α为0.5,候选词vj的权重系数为0.5,则将这些数据代入上述相似度的计算公式,可以得到:
Figure BDA0001648004650000061
所以组合中的候选词vi和候选词vj之间的相似度为0.67。
可选的,根据短视频r的视频文本确定在短视频r中同时出现候选词vi和候选词vj的共现次数Ir(i,j),包括:
于短视频r的视频文本中,连续截取至少一个预设长度的文本片段;累计各文本片段中同时出现候选词vi和候选词vj的次数,并将累计结果确定为在短视频r中同时出现候选词vi和候选词vj的共现次数Ir(i,j)。
其中,预设长度可以是根据实际情况或文本长短预先确定的字数。可选的,预设长度可以设置为5。示例性的,若短视频r的视频文本为“张三的杂技表演”,预设长度为5,则连续截取的文本片段有“张三的杂技”、“三的杂技表”和“的杂技表演”。当文本片段中同时出现一次候选词vi和候选词vj时,表示候选词vi和候选词vj的共现次数为1。通过累计每个文本片段中同时出现候选词vi和候选词vj的次数,即可得到在短视频r的视频文本中同时出现候选词vi和候选词vj的共现次数Ir(i,j)。
S130、根据各相似度确定无向图,并根据无向图和各相似度确定各候选词的目标权重分数。
其中,无向图指的是边没有方向的图。根据每个组合中两个候选词之间的相似度建立一个无向图。本实施例中的目标权重分数用于衡量某个候选词相对于其他候选词的相对重要程度,以根据目标权重分数准确的确定作为短视频的候选词。
可选的,S130中根据各相似度确定无向图,包括:
将各候选词作为顶点;将相似度大于零的两个候选词对应的顶点进行连线,确定无向图。
其中,将每个候选词作为图的一个顶点,并根据两个候选词之间的相似度,将相似度大于零的两个候选词对应的两个顶点进行连线,形成一条边,相似度等于零的两个候选词对应的两个顶点之间没有边的连接。示例性,图2给出了确定标签方法中的一种无向图的示例,假设根据4个候选词a、b、c和d得到6个组合:a与b、a与c、a与d、b与c、b与d以及c与d,其中a与b之间的相似度、a与c之间的相似度、b与c之间的相似度、以及c与d之间的相似度均大于零,而b与d之间的相似度以及a与d之间的相似度均等于零,则确定的无向图如图2所示,以a、b、c和d作为图的顶点,仅将相似度大于零的两个顶点进行连线,从而确定无向图。
可选的,S130中根据无向图和各相似度确定各候选词的目标权重分数,包括:
将至少两个候选词中的候选词逐个确定为目标候选词,并根据无向图确定与目标候选词相连线的至少一个关联候选词;初始化目标候选词和各关联候选词对应的初始权重分数;根据目标候选词与各关联候选词之间的相似度和各初始权重分数进行迭代,确定目标候选词的当次迭代权重分数;若当次迭代权重分数与上次迭代权重分数的变化量小于预设百分数,则停止迭代,并将当次迭代权重分数确定为目标候选词的目标权重分数。
其中,将根据视频文本确定的所有候选词逐个确定为目标候选词,从而通过迭代方式逐个确定每个目标候选词的目标权重分数。关联候选词是指与目标候选词相连线的候选词,比如在图2中,若将候选词a确定为目标候选词,则根据图2中的无向图可以看出:候选词a的关联候选词为候选词b和候选词c。对目标候选词和各关联候选词对应的权重分数进行初始化时,可以将所有候选词对应的初始权重分数设置为相同的权重分数,比如每个候选词的初始化权重分数均为0.5。根据目标候选词与各关联候选词之间的相似度和各初始权重分数确定目标候选词的第一次迭代权重分数,再根据目标候选词与各关联候选词之间的相似度和各关联候选词的第一次迭代权重分数确定目标候选词的第二次迭代权重分数,依此顺序迭代,即根据目标候选词与各关联候选词之间的相似度和各关联候选词的上次迭代权重分数确定目标候选词当次迭代权重分数。本实施例中的预设百分数可以根据迭代要求和标签确定精准度预先进行设置,示例性的,预设百分数可以为0.1%。检测目标候选词的当次迭代权重分数与上次迭代权重分数的变化量是否小于当次权重分数的预设百分数,若是,则表明权重分数变化趋于平稳,此时停止迭代,并将目标候选词的当次迭代权重分数确定为目标候选词的目标权重分数;若否,则表明权重分数变化较大,此时根据目标候选词与各关联候选词之间的相似度和各关联候选词的当次迭代权重分数确定目标候选词的下次迭代权重分数,直到检测到的权重分数的变化量小于预设百分数。
可选的,该方法还包括:
根据如下迭代公式确定目标候选词在第k次迭代时的迭代权重分数:
Figure BDA0001648004650000091
其中,p(vi)k是目标候选词vi在第k次迭代时的迭代权重分数,e(vi)是与目标候选词vi相连线的关联候选词集合,vm和vn均是关联候选词集合e(vi)中的一个关联候选词,wim是目标候选词vi和关联候选词vm之间的相似度,win是目标候选词vi和关联候选词vn之间的相似度,p(vm)k-1是关联候选词vm在第k-1次迭代时的迭代权重分数,d是阻尼系数。
本实施例中可以通过上述迭代公式计算出每次迭代时的迭代权重分数,其中,阻尼系数d可以在0到1之间取值,该阻尼系数d表示从无向图的某一特定顶点指向其他任意顶点的概率,一般情况下阻尼系数d取值为0.8到0.9之间。示例性的,假设目标候选词为a,与a连线的关联候选词为b、c和d,候选词a分别与b、c、d之间的相似度为wab=0.1、wac=0.9、wad=0.5,阻尼系数d为0.8,候选词a、b、c和d的初始权重分数均为0.5,即w(a)0=w(b)0=w(c)0=w(d)0=0.5,则第一次迭代得到的目标候选词a的迭代权重分数为:
Figure BDA0001648004650000092
将候选词b确定为目标候选词,根据b与它的关联候选词之间的相似度以及初始权重分数确定第一次迭代得到的b的迭代权重分数w(b)1,同理确定w(c)1和w(d)1,从而根据w(b)1、w(c)1和w(d)1确定第二次迭代时目标候选词a的迭代权重分数:
Figure BDA0001648004650000101
依次进行迭代,直到目标候选词的当次迭代权重分数与上次迭代权重分数的变化量小于预设百分数。
S140、根据各目标权重分数确定与至少两个短视频对应的预设个数的标签。
其中,根据每个候选词的目标权重分数确定与至少两个短视频对应的标签。预设个数是指根据用户需求和实际情况预先确定的与至少两个短视频对应的标签数量。示例性的,预设个数可以为200。本实施例可以通过对各候选词的目标权重分数从高到低进行排序,将前预设个数的目标权重分数对应的候选词确定为与多个短视频对应的标签。本实施例中根据目标权重分数确定的短视频标签更加贴合视频内容,准确度更高,并且方便快捷,同时也丰富了标签内容。
本实施例的技术方案,通过对至少两个短视频的视频文本进行分词处理,确定至少两个候选词,并对至少两个候选词进行两两组合,根据各短视频的视频文本确定各组合中两个候选词之间的相似度,根据各相似度确定无向图,并根据无向图和各相似度确定各候选词的目标权重分数,根据各目标权重分数确定与至少两个短视频对应的预设个数的标签,从而可以自动确定与多个短视频对应的多个标签,方便快捷,提高了标签的确定效率和准确度,并且丰富了标签内容。
实施例二
图3为本发明实施例二提供的一种标签确定方法的流程图,本实施例在上述各实施例的基础上进行优化:在根据各目标权重分数确定与至少两个短视频对应的预设个数的标签之后,还包括:将至少两个短视频中的短视频逐个确定为目标短视频,并获取对目标短视频的目标视频文本进行分词得到的至少一个待选词;将各待选词在预设个数的标签中进行匹配,并根据匹配结果确定与目标短视频对应的目标标签。
优化后的标签确定方法包括以下步骤:
S210、获取至少两个短视频的视频文本,并对各视频文本进行分词处理,确定至少两个候选词。
S220、对至少两个候选词进行两两组合,并根据各短视频的视频文本确定各组合中两个候选词之间的相似度。
S230、根据各相似度确定无向图,并根据无向图和各相似度确定各候选词的目标权重分数。
S240、根据各目标权重分数确定与至少两个短视频对应的预设个数的标签。
S250、将至少两个短视频中的短视频逐个确定为目标短视频,并获取对目标短视频的目标视频文本进行分词得到的至少一个待选词。
其中,获取的多个短视频中的每个短视频均逐个作为目标短视频进行处理。本实施例中的目标视频文本是指目标短短视频的视频文本。目标短视频的待选词是指可以作为目标短视频标签的词语。任意两个目标短视频对应的至少一个待选词中可以存在相同的待选词。通过利用分词技术对目标视频文本进行分词得到多个词语,过滤多个词语中的停用词,将预设词性的至少一个词语确定为待选词。
S260、将各待选词在预设个数的标签中进行匹配,并根据匹配结果确定与目标短视频对应的目标标签。
其中,将每个待选词与预设个数标签中的每个标签进行匹配,确定每个待选词是否出现在预设个数的标签中,若某个待选词与某个标签相同,则表示该待选词匹配成功;若某个待选词与任意一个标签均不相同,则表示该待选词匹配失败。本实施例可以根据匹配结果确定匹配成功的待选词数量,根据待选词数量确定与目标短视频对应的目标标签。可选的,若待选词数量大于预设数量,则根据与待选词匹配成功的标签对应的目标权重分数确定与目标短视频对应的预设数量的目标标签;若待选词数量小于或等于预设数量,则直接将匹配成功的待选词确定为与目标短视频对应的目标标签。其中,预设数量可以是根据实际情况和视频内容确定的单个短视频对应的目标标签的数量,示例的,预设数量设置为6到8个是最佳情况。可选的,当待选词数量大于预设数量时,对与待选词匹配成功的标签对应的目标权重分数从高到低进行排序,将前预设数量的标签确定为目标短视频的目标标签。
本实施例的技术方案,在确定与至少两个短视频对应的预设个数的标签之后,通过将所有短视频逐个确定为目标短视频,将目标短视频对应的各待选词与预设个数标签中的每个标签进行匹配,并根据匹配结果确定每个目标短视频对应的目标标签,从而使得每个短视频的标签更加贴合视频内容,标签内容更加丰富,同时也提高了标签确定的效率和准确度。
实施例三
图4为本发明实施例三提供的一种标签确定装置的结构示意图,本实施例可适用于确定多个短视频对应的标签的情况,该装置包括:候选词确定模块310、相似度确定模块320、无向图确定模块330、目标权重分数确定模块340和第一标签确定模块350。
其中,候选词确定模块310,用于获取至少两个短视频的视频文本,并对各视频文本进行分词处理,确定至少两个候选词;相似度确定模块320,用于对至少两个候选词进行两两组合,并根据各短视频的视频文本确定各组合中两个候选词之间的相似度;无向图确定模块330,用于根据各相似度确定无向图;目标权重分数确定模块340,用于根据无向图和各相似度确定各候选词的目标权重分数;第一标签确定模块350,用于根据各目标权重分数确定与至少两个短视频对应的预设个数的标签。
可选的,候选词确定模块310,具体用于:
对各视频文本进行分词,并确定分词得到的各词语的词性;过滤各词语中的停用词,并根据各词语的词性确定与预设词性对应的各待选词;对各待选词进行去重处理,并将去重后得到的各待选词确定为候选词。
可选的,相似度确定模块320,具体用于:根据如下公式确定各组合中的两个候选词vi和vj之间的相似度:
Figure BDA0001648004650000131
其中,wij是组合中的候选词vi和候选词vj之间的相似度,fi是出现候选词vi的短视频个数,fj是出现候选词vj的短视频个数,α和β分别是候选词vi和候选词vj的权重系数,Ri∩Rj是同时出现候选词vi和候选词vj的第一短视频集合,r是第一短视频集合中的一个短视频,Ir(i,j)是根据短视频r的视频文本确定的在短视频r中同时出现候选词vi和候选词vj的共现次数,wr是第一短视频集合中的短视频个数。
可选的,该装置还包括:
共现次数确定模块,用于短视频r的视频文本中,连续截取至少一个预设长度的文本片段;累计各文本片段中同时出现候选词vi和候选词vj的次数,并将累计结果确定为在短视频r中同时出现候选词vi和候选词vj的共现次数Ir(i,j)。
可选的,无向图确定模块330,具体用于:
将各候选词作为顶点;将相似度大于零的两个候选词对应的顶点进行连线,确定无向图。
可选的,目标权重分数确定模块340,具体用于:
将至少两个候选词中的候选词逐个确定为目标候选词,并根据无向图确定与目标候选词相连线的至少一个关联候选词;初始化目标候选词和各关联候选词对应的初始权重分数;根据目标候选词与各关联候选词之间的相似度和各初始权重分数进行迭代,确定目标候选词的当次迭代权重分数;若当次迭代权重分数与上次迭代权重分数的变化量小于预设百分数,则停止迭代,并将当次迭代权重分数确定为目标候选词的目标权重分数。
可选的,目标权重分数确定模块340,还用于:根据如下迭代公式确定目标候选词在第k次迭代时的迭代权重分数:
Figure BDA0001648004650000141
其中,p(vi)k是目标候选词vi在第k次迭代时的迭代权重分数,e(vi)是与目标候选词vi相连线的关联候选词集合,vm和vn均是关联候选词集合e(vi)中的一个关联候选词,wim是目标候选词vi和关联候选词vm之间的相似度,win是目标候选词vi和关联候选词vn之间的相似度,p(vm)k-1是关联候选词vm在第k-1次迭代时的迭代权重分数,d是阻尼系数。
可选的,该装置还包括:
待选词确定模块,用于在根据各目标权重分数确定与至少两个短视频对应的预设个数的标签之后,将至少两个短视频中的短视频逐个确定为目标短视频,并获取对目标短视频的目标视频文本进行分词得到的至少一个待选词;
目标标签确定模块,用于将各待选词在预设个数的标签中进行匹配,并根据匹配结果确定与目标短视频对应的目标标签。
上述标签确定装置可执行本发明任意实施例所提供的标签确定方法,具备执行标签确定方法相应的功能模块和有益效果。
实施例四
图5是本发明实施例四提供的一种终端的结构示意图。参见图5,该终端包括:
一个或多个处理器410;
存储器420,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器410执行,使得一个或多个处理器410实现如上述实施例中任意实施例提出的标签确定方法。
图5中以一个处理器410为例;终端中的处理器410和存储器420可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的标签确定方法对应的程序指令/模块(例如,标签确定装置中的候选词确定模块310、相似度确定模块320、无向图确定模块330、目标权重分数确定模块340和第一标签确定模块350)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行终端的各种功能应用以及数据处理,即实现上述的标签确定方法。
存储器420主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本实施例提出的终端与上述实施例提出的标签确定方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例具备执行标签确定方法相同的有益效果。
实施例五
本实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的标签确定方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种标签确定方法,其特征在于,包括:
获取至少两个短视频的视频文本,并对各所述视频文本进行分词处理,确定至少两个候选词;
对所述至少两个候选词进行两两组合,并根据各所述短视频的视频文本确定各组合中两个候选词之间的相似度;
根据各所述相似度确定无向图,并根据所述无向图和各所述相似度确定各所述候选词的目标权重分数;
根据各所述目标权重分数确定与所述至少两个短视频对应的预设个数的标签;
根据各所述短视频的视频文本确定各组合中两个候选词之间的相似度,包括:
根据如下公式确定各组合中的两个候选词vi和vj之间的相似度:
Figure FDA0002828649920000011
其中,wij是组合中的候选词vi和候选词vj之间的相似度,fi是出现候选词vi的短视频个数,fj是出现候选词vj的短视频个数,α和β分别是候选词vi和候选词vj的权重系数,Ri∩Rj是同时出现候选词vi和候选词vj的第一短视频集合,r是所述第一短视频集合中的一个短视频,Ir(i,j)是根据短视频r的视频文本确定的在短视频r中同时出现候选词vi和候选词vj的共现次数,wr是所述第一短视频集合中的短视频个数。
2.根据权利要求1所述的方法,其特征在于,根据短视频r的视频文本确定在短视频r中同时出现候选词vi和候选词vj的共现次数Ir(i,j),包括:
于短视频r的视频文本中,连续截取至少一个预设长度的文本片段;
累计各所述文本片段中同时出现候选词vi和候选词vj的次数,并将累计结果确定为所述在短视频r中同时出现候选词vi和候选词vj的共现次数Ir(i,j)。
3.根据权利要求1所述的方法,其特征在于,根据各所述相似度确定无向图,包括:
将各所述候选词作为顶点;
将所述相似度大于零的两个候选词对应的顶点进行连线,确定无向图。
4.根据权利要求1所述的方法,其特征在于,根据所述无向图和各所述相似度确定各所述候选词的目标权重分数,包括:
将所述至少两个候选词中的候选词逐个确定为目标候选词,并根据所述无向图确定与所述目标候选词相连线的至少一个关联候选词;
初始化所述目标候选词和各所述关联候选词对应的初始权重分数;
根据所述目标候选词与各所述关联候选词之间的相似度和各所述初始权重分数进行迭代,确定所述目标候选词的当次迭代权重分数;
若所述当次迭代权重分数与上次迭代权重分数的变化量小于预设百分数,则停止迭代,并将所述当次迭代权重分数确定为所述目标候选词的目标权重分数。
5.根据权利要求4所述的方法,其特征在于,还包括:
根据如下迭代公式确定所述目标候选词在第k次迭代时的迭代权重分数:
Figure FDA0002828649920000021
其中,p(vi)k是目标候选词vi在第k次迭代时的迭代权重分数,e(vi)是与目标候选词vi相连线的关联候选词集合,vm和vn均是所述关联候选词集合e(vi)中的一个关联候选词,wim是目标候选词vi和关联候选词vm之间的相似度,win是目标候选词vi和关联候选词vn之间的相似度,p(vm)k-1是关联候选词vm在第k-1次迭代时的迭代权重分数,d是阻尼系数。
6.根据权利要求1所述的方法,其特征在于,在根据各所述目标权重分数确定与所述至少两个短视频对应的预设个数的标签之后,还包括:
将所述至少两个短视频中的短视频逐个确定为目标短视频,并获取对所述目标短视频的目标视频文本进行分词得到的至少一个待选词;
将各所述待选词在所述预设个数的标签中进行匹配,并根据匹配结果确定与所述目标短视频对应的目标标签。
7.一种标签确定装置,其特征在于,包括:
候选词确定模块,用于获取至少两个短视频的视频文本,并对各所述视频文本进行分词处理,确定至少两个候选词;
相似度确定模块,用于对所述至少两个候选词进行两两组合,并根据各所述短视频的视频文本确定各组合中两个候选词之间的相似度;
无向图确定模块,用于根据各所述相似度确定无向图;
目标权重分数确定模块,用于根据所述无向图和各所述相似度确定各所述候选词的目标权重分数;
第一标签确定模块,用于根据各所述目标权重分数确定与所述至少两个短视频对应的预设个数的标签;
相似度确定模块,具体用于:根据如下公式确定各组合中的两个候选词vi和vj之间的相似度:
Figure FDA0002828649920000041
其中,wij是组合中的候选词vi和候选词vj之间的相似度,fi是出现候选词vi的短视频个数,fj是出现候选词vj的短视频个数,α和β分别是候选词vi和候选词vj的权重系数,Ri∩Rj是同时出现候选词vi和候选词vj的第一短视频集合,r是第一短视频集合中的一个短视频,Ir(i,j)是根据短视频r的视频文本确定的在短视频r中同时出现候选词vi和候选词vj的共现次数,wr是第一短视频集合中的短视频个数。
8.一种终端,其特征在于,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的标签确定方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的标签确定方法。
CN201810410803.2A 2018-05-02 2018-05-02 一种标签确定方法、装置、终端和存储介质 Active CN108595679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810410803.2A CN108595679B (zh) 2018-05-02 2018-05-02 一种标签确定方法、装置、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810410803.2A CN108595679B (zh) 2018-05-02 2018-05-02 一种标签确定方法、装置、终端和存储介质

Publications (2)

Publication Number Publication Date
CN108595679A CN108595679A (zh) 2018-09-28
CN108595679B true CN108595679B (zh) 2021-04-27

Family

ID=63620503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810410803.2A Active CN108595679B (zh) 2018-05-02 2018-05-02 一种标签确定方法、装置、终端和存储介质

Country Status (1)

Country Link
CN (1) CN108595679B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263854B (zh) * 2019-06-20 2023-06-27 广州酷狗计算机科技有限公司 直播标签确定方法、装置及存储介质
CN110704690B (zh) * 2019-09-02 2023-05-16 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法、设备及存储介质
CN110825915B (zh) * 2019-11-12 2022-05-13 深圳墨世科技有限公司 一种短视频标签抽取方法、装置、计算机设备及存储介质
CN113011182B (zh) * 2019-12-19 2023-10-03 北京多点在线科技有限公司 一种对目标对象进行标签标注的方法、装置和存储介质
CN111638832A (zh) * 2020-04-23 2020-09-08 北京达佳互联信息技术有限公司 信息展示方法、装置、***、电子设备及存储介质
CN114298007A (zh) * 2021-12-24 2022-04-08 北京字节跳动网络技术有限公司 一种文本相似度确定方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166685A (zh) * 2014-07-24 2014-11-26 北京捷成世纪科技股份有限公司 一种检测视频片段的方法和装置
CN107451267A (zh) * 2017-08-01 2017-12-08 东北大学 一种基于Spark平台的分布式推荐方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7185049B1 (en) * 1999-02-01 2007-02-27 At&T Corp. Multimedia integration description scheme, method and system for MPEG-7
CN104199898B (zh) * 2014-08-26 2018-05-15 北京小度互娱科技有限公司 一种属性信息的获取方法及装置、推送方法及装置
US20160378762A1 (en) * 2015-06-29 2016-12-29 Rovi Guides, Inc. Methods and systems for identifying media assets
CN105138510B (zh) * 2015-08-10 2018-05-25 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN107766331A (zh) * 2017-11-10 2018-03-06 云南大学 对单词情感值进行自动标定的方法
CN107911748A (zh) * 2017-11-24 2018-04-13 南京融升教育科技有限公司 一种基于人脸识别的视频裁剪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166685A (zh) * 2014-07-24 2014-11-26 北京捷成世纪科技股份有限公司 一种检测视频片段的方法和装置
CN107451267A (zh) * 2017-08-01 2017-12-08 东北大学 一种基于Spark平台的分布式推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dimensional affect recogniton using continuous conditional random fields;Tadas Bal. 等;《2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recogniton》;20130426;第1-8页 *
结合用户关系网和标签共现网的微博用户标签推荐研究;*** 等;《情报学报》;20151030(第5期);第459-465页 *

Also Published As

Publication number Publication date
CN108595679A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN108595679B (zh) 一种标签确定方法、装置、终端和存储介质
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US10824874B2 (en) Method and apparatus for processing video
US9195738B2 (en) Tokenization platform
CN109657053B (zh) 多文本摘要生成方法、装置、服务器及存储介质
US8577882B2 (en) Method and system for searching multilingual documents
CN111814770B (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
CN106528894B (zh) 设置标签信息的方法及装置
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN111506771B (zh) 一种视频检索方法、装置、设备及存储介质
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN105302807B (zh) 一种获取信息类别的方法和装置
CN108304377B (zh) 一种长尾词的提取方法及相关装置
JP2015529901A (ja) 製品認識に基づく情報分類
US9436891B2 (en) Discriminating synonymous expressions using images
CN111708909B (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN110198482B (zh) 一种视频重点桥段标注方法、终端及存储介质
CN111767738A (zh) 一种标签校验方法、装置、设备和存储介质
CN113448935A (zh) 用于提供日志信息的方法、电子设备和计算机程序产品
US20200257724A1 (en) Methods, devices, and storage media for content retrieval
CN109062905B (zh) 一种弹幕文本价值评价方法、装置、设备及介质
CN106033417B (zh) 视频搜索系列剧的排序方法和装置
CN106919554B (zh) 文档中无效词的识别方法及装置
CN109145261B (zh) 一种生成标签的方法和装置
CN113076932B (zh) 训练音频语种识别模型的方法、视频检测方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant