CN106528894A - 设置标签信息的方法及装置 - Google Patents

设置标签信息的方法及装置 Download PDF

Info

Publication number
CN106528894A
CN106528894A CN201611235463.1A CN201611235463A CN106528894A CN 106528894 A CN106528894 A CN 106528894A CN 201611235463 A CN201611235463 A CN 201611235463A CN 106528894 A CN106528894 A CN 106528894A
Authority
CN
China
Prior art keywords
probability
information
key word
subject information
multimedia file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611235463.1A
Other languages
English (en)
Other versions
CN106528894B (zh
Inventor
高阳
丁晓亮
刘爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201611235463.1A priority Critical patent/CN106528894B/zh
Publication of CN106528894A publication Critical patent/CN106528894A/zh
Application granted granted Critical
Publication of CN106528894B publication Critical patent/CN106528894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种设置标签信息的方法及装置,属于互联网技术领域。所述方法包括:获取目标多媒体文件的字幕信息;对所述字幕信息进行分词,得到第一关键词集合;对所述第一关键词集合中的每个关键词进行分析,得到所述目标多媒体文件的标签信息;为所述目标多媒体文件设置所述标签信息。本公开通过对目标多媒体文件的字幕信息进行语义分析,提取目标多媒体文件的标签信息,为该目标多媒体文件设置该标签信息。从而不仅提高了设置标签信息的效率,还提高了设置标签信息的准确性。

Description

设置标签信息的方法及装置
技术领域
本公开涉及互联网技术领域,尤其涉及一种设置标签信息的方法及装置。
背景技术
随着信息时代的到来,服务器中存储的视频文件越来越多,用户从服务器中获取用户感兴趣的视频文件的难度越来越大。为了降低难度,服务器可以为视频文件设置标签信息,从而用户可以根据视频文件的标签信息从服务器中选择用户感兴趣的视频文件。
目前,通常由人工观看视频文件,定义该视频文件的标签信息,从而实现为该视频文件设置标签信息;该标签信息包括该视频文件所属的主题信息,例如,该标签信息可以为情感或者喜剧等。
发明内容
为克服相关技术中存在的问题,本公开提供一种设置标签信息的方法及装置,所述技术方案如下:
根据本公开实施例的第一方面,提供一种设置标签信息的方法,所述方法包括:
获取目标多媒体文件的字幕信息;
对所述字幕信息进行分词,得到第一关键词集合;
对所述第一关键词集合中的每个关键词进行分析,得到所述目标多媒体文件的标签信息;
为所述目标多媒体文件设置所述标签信息。
在本公开实施例中,通过对目标多媒体文件的字幕信息进行语义分析,提取目标多媒体文件的标签信息,为该目标多媒体文件设置该标签信息。从而不仅提高了设置标签信息的效率,还提高了设置标签信息的准确性。
在一种可能实现方式中,所述对所述第一关键词集合中的每个关键词进行分析,得到所述目标多媒体文件的标签信息,包括:
获取所述每个关键词在所述字幕信息中的概率,以及,获取所述每个关键词属于主题信息库中的每个主题信息的概率,所述主题信息库用于存储多个预设的主题信息;
根据所述每个关键词在所述字幕信息中的概率和所述每个关键词属于每个主题信息的概率,确定所述目标多媒体文件属于所述每个主题信息的概率;
根据所述目标多媒体文件属于所述每个主题信息的概率,从所述每个主题信息中选择概率最大的预设数目个主题信息;
将选择的预设数目个主题信息组成所述目标多媒体文件的标签信息。
在本公开实施例中,根据每个关键词在该字幕信息中的概率和每个关键词属于每个主题信息的概率,确定目标多媒体文件属于每个主题信息的概率;根据目标多媒体文件属于每个主题信息的概率,从每个主题信息中选择概率最大的预设数目个主题信息,从而提高了设置标签信息的准确性。
在一种可能实现方式中,所述根据所述每个关键词在所述字幕信息中的概率和所述每个关键词属于每个主题信息的概率,确定所述目标多媒体文件属于所述每个主题信息的概率,包括:
将所述每个关键词在所述字幕信息中的概率组成第一概率矩阵,以及,将所述每个关键词属于每个主题信息的概率组成第二概率矩阵;
将所述第二概率矩阵的逆矩阵与所述第一概率矩阵相乘,得到第三概率矩阵;
从所述第三概率矩阵中获取所述目标多媒体文件属于所述每个主题信息的概率。
在本公开实施例中,将每个关键词在该字幕信息中的概率组成第一概率矩阵,将每个关键词属于每个主题信息的概率组成第二概率矩阵,根据第一概率矩阵和第二概率矩阵,确定该目标多媒体文件属于每个主题信息的概率,提高了确定出该目标多媒体文件属于每个主题信息的概率的准确性,进而提高了设置标签信息的准确性。
在一种可能实现方式中,所述获取所述每个关键词属于主题信息库中的每个主题信息的概率,包括:
对于所述每个主题信息,获取所述主题信息对应的预设关键词集合;
根据所述每个关键词在所述字幕信息中的概率、所述预设关键词集合和所述预设关键词集合包含的关键词的数目,确定所述每个关键词属于所述主题信息的概率。
在一种可能实现方式中,所述根据所述每个关键词在所述字幕信息中的概率、所述预设关键词集合和所述预设关键词集合包含的关键词的数目,确定所述每个关键词属于所述主题信息的概率,包括:
如果所述预设关键词集合中包含所述每个关键词,将所述每个关键词在所述字幕信息中的概率和所述预设关键词集合包含的关键词的数目的比值作为所述每个关键词属于所述主题信息的概率;
如果所述预设关键词集合中不包含所述每个关键词,确定所述每个关键词属于所述主题信息的概率为零。
在本公开实施例中,将每个关键词在该字幕信息中的概率和预设关键词集合包含的关键词的数目的比值作为每个关键词属于该主题信息的概率,由于结合了每个关键词在该字幕信息中的概率,确定每个关键字属于该主题信息的概率,提高了确定出每个关键词属于该主题信息的概率的准确性,进而提高了设置标签信息的准确性。
在一种可能实现方式中,所述对所述字幕信息进行分词,得到第一关键词集合,包括:
对所述字幕信息进行分词,将所述字幕信息包括的每个分词组成第二关键词集合;
将所述第二关键词集合中预设类型的关键词去除,得到所述第一关键字集合。
在本公开实施例中,将第二关键词集合中预设类型的关键词去除,不仅降低了运算量,还提高了设置标签信息的准确性。
根据本公开实施例的第二方面,提供一种设置标签信息的装置,所述装置包括:
获取模块,用于获取目标多媒体文件的字幕信息;
分词模块,用于对所述字幕信息进行分词,得到第一关键词集合;
分析模块,用于对所述第一关键词集合中的每个关键词进行分析,得到所述目标多媒体文件的标签信息;
设置模块,用于为所述目标多媒体文件设置所述标签信息。
在一种可能实现方式中,所述分析模块,包括:
第一获取单元,用于获取所述每个关键词在所述字幕信息中的概率;
第二获取单元,用于获取所述每个关键词属于主题信息库中的每个主题信息的概率,所述主题信息库用于存储多个预设的主题信息;
确定单元,用于根据所述每个关键词在所述字幕信息中的概率和所述每个关键词属于每个主题信息的概率,确定所述目标多媒体文件属于所述每个主题信息的概率;
选择单元,用于根据所述目标多媒体文件属于所述每个主题信息的概率,从所述每个主题信息中选择概率最大的预设数目个主题信息;
第一组成单元,用于将选择的预设数目个主题信息组成所述目标多媒体文件的标签信息。
在一种可能实现方式中,所述确定单元,还用于将所述每个关键词在所述字幕信息中的概率组成第一概率矩阵,以及,将所述每个关键词属于每个主题信息的概率组成第二概率矩阵,将所述第二概率矩阵的逆矩阵与所述第一概率矩阵相乘,得到第三概率矩阵,从所述第三概率矩阵中获取所述目标多媒体文件属于所述每个主题信息的概率。
在一种可能实现方式中,所述第二获取单元,还用于对于所述每个主题信息,获取所述主题信息对应的预设关键词集合,根据所述每个关键词在所述字幕信息中的概率、所述预设关键词集合和所述预设关键词集合包含的关键词的数目,确定所述每个关键词属于所述主题信息的概率。
在一种可能实现方式中,所述第二获取单元,还用于,如果所述预设关键词集合中包含所述每个关键词,将所述每个关键词在所述字幕信息中的概率和所述预设关键词集合包含的关键词的数目的比值作为所述每个关键词属于所述主题信息的概率,如果所述预设关键词集合中不包含所述每个关键词,确定所述每个关键词属于所述主题信息的概率为零。
在一种可能实现方式中,所述分词模块,包括:
分词单元,用于对所述字幕信息进行分词;
第二组成单元,用于将所述字幕信息包括的每个分词组成第二关键词集合;
去除单元,用于将所述第二关键词集合中预设类型的关键词去除,得到所述第一关键字集合。
根据本公开实施例的第三方面,提供一种设置标签信息的装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取目标多媒体文件的字幕信息;
对所述字幕信息进行分词,得到第一关键词集合;
对所述第一关键词集合中的每个关键词进行分析,得到所述目标多媒体文件的标签信息;
为所述目标多媒体文件设置所述标签信息。
本公开的实施例提供的技术方案可以包括以下有益效果:
在本公开实施例中,通过对目标多媒体文件的字幕信息进行语义分析,提取目标多媒体文件的标签信息,为该目标多媒体文件设置该标签信息。从而不仅提高了设置标签信息的效率,还提高了设置标签信息的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种设置标签信息的方法的流程图;
图2是根据一示例性实施例示出的一种设置标签信息的方法的流程图;
图3是根据一示例性实施例示出的一种设置标签信息的装置的框图;
图4是根据一示例性实施例示出的一种分析模块的框图;
图5是根据一示例性实施例示出的一种分词模块的框图;
图6是根据一示例性实施例示出的一种设置标签信息的装置的框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
为了降低用户从服务器中获取用户感兴趣的视频文件的难度,服务器需要为服务器中的视频文件设置标签信息,该标签信息可以包括视频文件所属的主题信息等。从而用户可以根据视频文件的标签信息从服务器中选择用户感兴趣的视频文件。
在相关技术中,通常由人工观看视频文件,定义视频文件的标签信息,从而实现为该视频文件设置标签信息;然而服务器中的视频文件的数量非常大,并且每个视频文件的时长比较长,通常为一百分钟左右;因此用户手动为视频文件设置标签信息的效率低。并且,受用户主观因素的影响,导致用户设置的标签信息不准确。
在本公开实施例中,由服务器通过对多媒体文件的字幕信息进行语义分析,提取多媒体文件的标签信息,为该多媒体文件设置该标签信息。从而不仅提高了设置标签信息的效率,还提高了设置标签信息的准确性。
图1是根据一示例性实施例示出的一种设置标签信息的方法流程图,该方法的执行主体可以为服务器,如图1所示,包括以下步骤。
在步骤S101中,获取目标多媒体文件的字幕信息。
在步骤S102中,对该字幕信息进行分词,得到第一关键词集合。
在步骤S103中,对第一关键词集合中的每个关键词进行分析,得到该目标多媒体文件的标签信息。
在步骤S104中,为该目标多媒体文件设置该标签信息。
在一种可能实现方式中,对第一关键词集合中的每个关键词进行分析,得到该目标多媒体文件的标签信息,包括:
获取每个关键词在该字幕信息中的概率,以及,获取每个关键词属于主题信息库中的每个主题信息的概率,该主题信息库用于存储多个预设的主题信息;
根据每个关键词在该字幕信息中的概率和每个关键词属于每个主题信息的概率,确定该目标多媒体文件属于每个主题信息的概率;
根据该目标多媒体文件属于每个主题信息的概率,从每个主题信息中选择概率最大的预设数目个主题信息;
将选择的预设数目个主题信息组成该目标多媒体文件的标签信息。
在一种可能实现方式中,根据每个关键词在该字幕信息中的概率和每个关键词属于每个主题信息的概率,确定该目标多媒体文件属于每个主题信息的概率,包括:
将每个关键词在该字幕信息中的概率组成第一概率矩阵,以及,将每个关键词属于每个主题信息的概率组成第二概率矩阵;
将第二概率矩阵的逆矩阵与第一概率矩阵相乘,得到第三概率矩阵;
从第三概率矩阵中获取该目标多媒体文件属于每个主题信息的概率。
在一种可能实现方式中,获取每个关键词属于主题信息库中的每个主题信息的概率,包括:
对于每个主题信息,获取该主题信息对应的预设关键词集合;
根据每个关键词在该字幕信息中的概率、预设关键词集合和预设关键词集合包含的关键词的数目,确定每个关键词属于该主题信息的概率。
在一种可能实现方式中,根据每个关键词在该字幕信息中的概率、预设关键词集合和预设关键词集合包含的关键词的数目,确定每个关键词属于该主题信息的概率,包括:
如果预设关键词集合中包含每个关键词,将每个关键词在该字幕信息中的概率和预设关键词集合包含的关键词的数目的比值作为每个关键词属于该主题信息的概率;
如果预设关键词集合中不包含每个关键词,确定每个关键词属于该主题信息的概率为零。
在一种可能实现方式中,对该字幕信息进行分词,得到第一关键词集合,包括:
对该字幕信息进行分词,将该字幕信息包括的每个分词组成第二关键词集合;
将第二关键词集合中预设类型的关键词去除,得到第一关键字集合。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图2是根据一示例性实施例示出的一种设置标签信息的方法流程图,该方法的执行主体可以为服务器,如图2所示,包括以下步骤。
在步骤S201中,服务器获取目标多媒体文件的字幕信息。
服务器中存储大量多媒体文件,服务器从大量多媒体文件中选择一个未设置标签信息的多媒体文件作为目标多媒体文件。并且,服务器中存储了多媒体文件的标识和字幕文件的对应关系;相应的,本步骤可以为:
服务器根据该目标多媒体文件的标识,从多媒体文件的标识和字幕文件的对应关系中获取该目标多媒体文件的字幕文件,从该目标多媒体文件的字幕文件中获取该目标多媒体文件的字幕信息。
目标多媒体文件可以为视频文件或者音频文件。该目标多媒体文件的标识可以为该目标多媒体文件的名称或者编号等。在本公开实施例中,对目标多媒体文件的标识不作具体限定。
在步骤S202中,服务器对该字幕信息进行分词,得到第一关键词集合。
在本步骤中,服务器可以对该字幕信息进行分词,将该字幕信息包括的每个分词组成第一关键词集合;服务器也可以通过以下步骤(1)-(2),得到第一关键词集合,包括:
(1):服务器对该字幕信息进行分词,将该字幕信息包括的每个分词组成第二关键词集合。
服务器通过预设分词工具,对该字幕信息进行分词,得到该字幕信息包括的每个分词,将该字幕信息包括的每个分词组成第二关键词集合。
例如,该字幕信息为“最了解你的人不是你的朋友,而是你的敌人。”则通过预设分词工具,对该字幕信息进行分词,得到该字幕信息包括的每个分词为“最”、“了解”、“你的”、“人”、“不是”、“你的”、“朋友”、“而是”、“你的”、“敌人”,则第二关键词集合为{“最”、“了解”、“你的”、“人”、“不是”、“你的”、“朋友”、“而是”、“你的”、“敌人”}。
预设分词工具可以为StandardAnalyzer(标准化分词工具),ChineseAnalyzer(中国分词工具),CJKAnalyzer(CJK分词工具)或者IKAnalyzer(IK分词工具)。在本公开实施例中,对预设分词工具不做具体限定。
由于“的”、“了”、“么”、“吧”、“啊”、“最”之类的关键词对标签信息起不到关键作用;因此,为了减少运算量以及提高设置标签信息的准确性,在本步骤中,服务器还可以通过以下步骤(2)将“的”、“了”、“么”、“吧”、“啊”、“最”之类的关键词从第二关键词集合中去除。
(2):服务器将第二关键词集合中预设类型的关键词去除,得到第一关键字集合。
预设类型的关键词可以为语气词或者助词等。则本步骤可以为:服务器标注第二关键词集合中的每个关键词的词性,根据第二关键词集合中的每个关键词,从第二关键词集合中查找预设类型的关键词,将预设类型的关键词从第二关键词集合中去除,得到第一关键词集合。
例如,服务器将第二关键词集合{“最”、“了解”、“你的”、“人”、“不是”、“你的”、“朋友”、“而是”、“你的”、“敌人”}中的“最”、“你的”、“人”、“不是”和“而是”去除,得到第一关键词集合为{“了解”、“朋友”、“敌人”}。
在一个可能的实现方式中,由于第一关键词集合中可能包含同义词或者近义词,例如,“首都”和“北京”是同义词;因此,为了减少运算量,服务器得到第一关键词集合之后,还可以将第一关键词集合中的多个同义词或者近义词合并为一个关键词。由于减少了第一关键词集合中的关键词的数量,因此,减少了服务器的运算量,进而提高了设置标签信息的效率。
在步骤S203中,服务器对第一关键词集合中的每个关键词进行分析,得到目标多媒体文件的标签信息。
本步骤可以通过以下第一种方式或者第二种方式实现;对于第一种实现方式,本步骤可以通过以下步骤(1)-(3)实现,包括:
(1):服务器获取每个关键词在该字幕信息中的概率。
服务器获取每个关键词在该字幕信息中出现的出现次数,计算每个关键词的出现次数之和,将每个关键词的出现次数与该出现次数之和的比值确定为每个关键词在该字幕信息中的概率。
需要说明的是,如果服务器将第一关键词集合中的多个同义词或者近义词合并为一个关键词,则服务器获取该关键词在该字幕信息中的概率时,服务器获取该关键词的同义词或者近义词在该字幕信息中出现的出现次数之和,计算每个关键词的出现次数之和,将该关键词的同义词或者近义词在该字幕信息中出现的出现次数之和与每个关键词的出现次数之和的比值确定为该关键词在该字幕信息中的概率。
(2):服务器获取每个关键词属于主题信息库中的每个主题信息的概率,该主题信息库用于存储多个预设的主题信息。
预设的主题信息可以为“友谊”、“情感”和“爱情”等。本步骤可以通过以下步骤(2-1)-(2-2)实现,包括:
(2-1):对于每个主题信息,服务器获取该主题信息对应的预设关键词集合。
对于主题信息库中的每个主题信息,服务器中存储每个主题信息和预设关键词集合的对应关系;相应的,本步骤可以为:
服务器根据该主题信息,从主题信息和预设关键词集合的对应关系中获取该主题信息对应的预设关键词集合。其中,该预设关键词集合中包括属于该主题信息的多个预设的关键词。
例如,服务器获取主题信息“友谊”对应的预设关键词集合为{朋友、友谊、义气}。
(2-2):服务器根据每个关键词在字幕信息中的概率、该预设关键词集合和该预设关键词集合包含的关键词的数目,确定该每个关键词属于该主题信息的概率。
对于每个关键词,服务器检测该预设关键词集合中是否包含该关键词;如果该预设关键词集合中包含该关键词,将该关键词在该字幕信息中的概率和该预设关键词集合包含的关键词的数目的比值作为该关键词属于该主题的概率。
如果该预设关键词集合中不包含该关键词,确定该关键词属于该主题信息的概率为零。
(3):服务器根据每个关键词在该字幕信息中的概率和每个关键词属于每个主题信息的概率,确定目标多媒体文件属于每个主题信息的概率。
本步骤可以通过以下步骤(3-1)-(3-3)实现,包括:
(3-1):服务器将每个关键词在该字幕信息中的概率组成第一概率矩阵,以及,将每个关键词属于每个主题信息的概率组成第二概率矩阵。
服务器将每个关键词在该字幕信息中的概率作为一行数据,组成第一概率矩阵;对于每个关键词,服务器将该关键词属于每个主题信息的概率作为一行数据,组成第二概率矩阵。
第一概率矩阵为n×1的矩阵,第二概率矩阵为n×m的矩阵;其中,n为第一关键词集合中包括的关键词的个数,m为主题信息库中包括的预设的主题信息的个数。
例如,每个关键词分别为A、B和C;A、B和C在该字幕信息中的概率分别为PA、PB和PC,主题信息库中包括的每个主题信息分别为主题1、主题2、主题3和主题4;关键词A属于每个主题信息的概率分别为A1、A2、A3和A4,关键词B属于每个主题信息的概率分别为B1、B2、B3和B4,关键词C属于每个主题信息的概率分别为C1、C2、C3和C4。
则第一概率矩阵为第二概率矩阵为
(3-2):服务器将第二概率矩阵的逆矩阵与第一概率矩阵相乘,得到第三概率矩阵。
服务器根据第二概率矩阵,确定第二概率矩阵的逆矩阵;将第二概率矩阵的逆矩阵与第一概率矩阵相乘,得到第三概率矩阵。其中,第三概率矩阵为m×1的矩阵,第三概率矩阵中的每行数据即为该目标多媒体文件属于每个主题信息的概率。
例如,服务器得到第三概率矩阵为
(3-3):服务器从第三概率矩阵中获取目标多媒体文件属于每个主题信息的概率。
第三概率矩阵中的每行数据即为该目标多媒体文件属于每个主题信息的概率。服务器从第三概率矩阵中即可获取目标多媒体文件属于每个主题信息的概率。
例如,第三矩阵为则P1为该目标多媒体文件属于主题信息1的概率,P2为该目标多媒体文件属于主题信息2的概率,P3为该目标多媒体文件属于主题信息3的概率,P4为该目标多媒体文件属于主题信息4的概率。
(4):服务器根据该目标多媒体文件属于每个主题信息的概率,从每个主题信息中选择概率最大的预设数目个主题信息。
为了便于区分,将该处的预设数目称为第一预设数目,第一预设数目可以根据需要进行设置并更改,在本公开实施例中,对第一预设数目不作具体限定;例如,第一预设数目可以为1或者2等。
(5):服务器将选择的第一预设数目个主题信息组成该目标多媒体文件的标签信息。
例如,选择的主题信息为喜剧和爱情,则该多媒体文件的标签信息为喜剧和爱情。
对于第二种实现方式,本步骤可以为:
服务器获取每个关键词在该字幕信息中的概率,根据每个关键词在该字幕信息中的概率,从每个关键词中选择概率最大的第二预设数目个关键词,获取选择的关键词所属的主题信息,将选择的关键字所属的主题信息组成该目标多媒体文件的标签信息。
在步骤S204中,服务器为该目标多媒体文件设置该标签信息。
在本公开实施例中,由服务器通过对目标多媒体文件的字幕信息进行语义分析,提取多媒体文件的标签信息,为该多媒体文件设置该标签信息。从而不仅提高了设置标签信息的效率,还提高了设置标签信息的准确性。
图3是根据一示例性实施例示出的一种设置标签信息的装置框图。参照图3,该装置包括:获取模块301,分词模块302,分析模块303和设置模块304。
获取模块301,被配置为获取目标多媒体文件的字幕信息;
分词模块302,被配置为对所述字幕信息进行分词,得到第一关键词集合;
分析模块303,被配置为对所述第一关键词集合中的每个关键词进行分析,得到所述目标多媒体文件的标签信息;
设置模块304,被配置为为所述目标多媒体文件设置所述标签信息。
在一种可能实现方式中,参见图4,所述分析模块303,包括:
第一获取单元3031,被配置为获取所述每个关键词在所述字幕信息中的概率;
第二获取单元3032,被配置为获取所述每个关键词属于主题信息库中的每个主题信息的概率,所述主题信息库被配置为存储多个预设的主题信息;
确定单元3033,被配置为根据所述每个关键词在所述字幕信息中的概率和所述每个关键词属于每个主题信息的概率,确定所述目标多媒体文件属于所述每个主题信息的概率;
选择单元3034,被配置为根据所述目标多媒体文件属于所述每个主题信息的概率,从所述每个主题信息中选择概率最大的预设数目个主题信息;
第一组成单元3035,被配置为将选择的预设数目个主题信息组成所述目标多媒体文件的标签信息。
在一种可能实现方式中,所述确定单元3033,还被配置为将所述每个关键词在所述字幕信息中的概率组成第一概率矩阵,以及,将所述每个关键词属于每个主题信息的概率组成第二概率矩阵,将所述第二概率矩阵的逆矩阵与所述第一概率矩阵相乘,得到第三概率矩阵,从所述第三概率矩阵中获取所述目标多媒体文件属于所述每个主题信息的概率。
在一种可能实现方式中,所述第二获取单元3032,还被配置为对于所述每个主题信息,获取所述主题信息对应的预设关键词集合,根据所述每个关键词在所述字幕信息中的概率、所述预设关键词集合和所述预设关键词集合包含的关键词的数目,确定所述每个关键词属于所述主题信息的概率。
在一种可能实现方式中,所述第二获取单元3032,还被配置为如果所述预设关键词集合中包含所述每个关键词,将所述每个关键词在所述字幕信息中的概率和所述预设关键词集合包含的关键词的数目的比值作为所述每个关键词属于所述主题信息的概率,如果所述预设关键词集合中不包含所述每个关键词,确定所述每个关键词属于所述主题信息的概率为零。
在一种可能实现方式中,参见图5,所述分词模块302,包括:
分词单元3021,被配置为对所述字幕信息进行分词;
第二组成单元3022,被配置为将所述字幕信息包括的每个分词组成第二关键词集合;
去除单元3023,被配置为将所述第二关键词集合中预设类型的关键词去除,得到所述第一关键字集合。
在本公开实施例中,由服务器通过对目标多媒体文件的字幕信息进行语义分析,提取多媒体文件的标签信息,为该多媒体文件设置该标签信息。从而不仅提高了设置标签信息的效率,还提高了设置标签信息的准确性。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的设置标签信息的装置在设置标签信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的设置标签信息的装置与设置标签信息是方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是根据一示例性实施例示出的一种用于设置标签信息的装置600的框图。例如,装置600可以被提供为一服务器。参照图6,装置600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述设置标签信息的方法。
装置600还可以包括一个电源组件626被配置为执行装置600的电源管理,一个有线或无线网络接口650被配置为将装置600连接到网络,和一个输入输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作***,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (13)

1.一种设置标签信息的方法,其特征在于,所述方法包括:
获取目标多媒体文件的字幕信息;
对所述字幕信息进行分词,得到第一关键词集合;
对所述第一关键词集合中的每个关键词进行分析,得到所述目标多媒体文件的标签信息;
为所述目标多媒体文件设置所述标签信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一关键词集合中的每个关键词进行分析,得到所述目标多媒体文件的标签信息,包括:
获取所述每个关键词在所述字幕信息中的概率,以及,获取所述每个关键词属于主题信息库中的每个主题信息的概率,所述主题信息库用于存储多个预设的主题信息;
根据所述每个关键词在所述字幕信息中的概率和所述每个关键词属于每个主题信息的概率,确定所述目标多媒体文件属于所述每个主题信息的概率;
根据所述目标多媒体文件属于所述每个主题信息的概率,从所述每个主题信息中选择概率最大的预设数目个主题信息;
将选择的预设数目个主题信息组成所述目标多媒体文件的标签信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个关键词在所述字幕信息中的概率和所述每个关键词属于每个主题信息的概率,确定所述目标多媒体文件属于所述每个主题信息的概率,包括:
将所述每个关键词在所述字幕信息中的概率组成第一概率矩阵,以及,将所述每个关键词属于每个主题信息的概率组成第二概率矩阵;
将所述第二概率矩阵的逆矩阵与所述第一概率矩阵相乘,得到第三概率矩阵;
从所述第三概率矩阵中获取所述目标多媒体文件属于所述每个主题信息的概率。
4.根据权利要求2所述的方法,其特征在于,所述获取所述每个关键词属于主题信息库中的每个主题信息的概率,包括:
对于所述每个主题信息,获取所述主题信息对应的预设关键词集合;
根据所述每个关键词在所述字幕信息中的概率、所述预设关键词集合和所述预设关键词集合包含的关键词的数目,确定所述每个关键词属于所述主题信息的概率。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个关键词在所述字幕信息中的概率、所述预设关键词集合和所述预设关键词集合包含的关键词的数目,确定所述每个关键词属于所述主题信息的概率,包括:
如果所述预设关键词集合中包含所述每个关键词,将所述每个关键词在所述字幕信息中的概率和所述预设关键词集合包含的关键词的数目的比值作为所述每个关键词属于所述主题信息的概率;
如果所述预设关键词集合中不包含所述每个关键词,确定所述每个关键词属于所述主题信息的概率为零。
6.根据权利要求1所述的方法,其特征在于,所述对所述字幕信息进行分词,得到第一关键词集合,包括:
对所述字幕信息进行分词,将所述字幕信息包括的每个分词组成第二关键词集合;
将所述第二关键词集合中预设类型的关键词去除,得到所述第一关键字集合。
7.一种设置标签信息的装置,其特征在于,所述装置包括:
获取模块,用于获取目标多媒体文件的字幕信息;
分词模块,用于对所述字幕信息进行分词,得到第一关键词集合;
分析模块,用于对所述第一关键词集合中的每个关键词进行分析,得到所述目标多媒体文件的标签信息;
设置模块,用于为所述目标多媒体文件设置所述标签信息。
8.根据权利要求7所述的装置,其特征在于,所述分析模块,包括:
第一获取单元,用于获取所述每个关键词在所述字幕信息中的概率;
第二获取单元,用于获取所述每个关键词属于主题信息库中的每个主题信息的概率,所述主题信息库用于存储多个预设的主题信息;
确定单元,用于根据所述每个关键词在所述字幕信息中的概率和所述每个关键词属于每个主题信息的概率,确定所述目标多媒体文件属于所述每个主题信息的概率;
选择单元,用于根据所述目标多媒体文件属于所述每个主题信息的概率,从所述每个主题信息中选择概率最大的预设数目个主题信息;
第一组成单元,用于将选择的预设数目个主题信息组成所述目标多媒体文件的标签信息。
9.根据权利要求8所述的装置,其特征在于,
所述确定单元,还用于将所述每个关键词在所述字幕信息中的概率组成第一概率矩阵,以及,将所述每个关键词属于每个主题信息的概率组成第二概率矩阵,将所述第二概率矩阵的逆矩阵与所述第一概率矩阵相乘,得到第三概率矩阵,从所述第三概率矩阵中获取所述目标多媒体文件属于所述每个主题信息的概率。
10.根据权利要求8所述的装置,其特征在于,所述第二获取单元,还用于对于所述每个主题信息,获取所述主题信息对应的预设关键词集合,根据所述每个关键词在所述字幕信息中的概率、所述预设关键词集合和所述预设关键词集合包含的关键词的数目,确定所述每个关键词属于所述主题信息的概率。
11.根据权利要求10所述的装置,其特征在于,
所述第二获取单元,还用于如果所述预设关键词集合中包含所述每个关键词,将所述每个关键词在所述字幕信息中的概率和所述预设关键词集合包含的关键词的数目的比值作为所述每个关键词属于所述主题信息的概率,如果所述预设关键词集合中不包含所述每个关键词,确定所述每个关键词属于所述主题信息的概率为零。
12.根据权利要求7所述的装置,其特征在于,所述分词模块,包括:
分词单元,用于对所述字幕信息进行分词;
第二组成单元,用于将所述字幕信息包括的每个分词组成第二关键词集合;
去除单元,用于将所述第二关键词集合中预设类型的关键词去除,得到所述第一关键字集合。
13.一种设置标签信息的装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取目标多媒体文件的字幕信息;
对所述字幕信息进行分词,得到第一关键词集合;
对所述第一关键词集合中的每个关键词进行分析,得到所述目标多媒体文件的标签信息;
为所述目标多媒体文件设置所述标签信息。
CN201611235463.1A 2016-12-28 2016-12-28 设置标签信息的方法及装置 Active CN106528894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611235463.1A CN106528894B (zh) 2016-12-28 2016-12-28 设置标签信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611235463.1A CN106528894B (zh) 2016-12-28 2016-12-28 设置标签信息的方法及装置

Publications (2)

Publication Number Publication Date
CN106528894A true CN106528894A (zh) 2017-03-22
CN106528894B CN106528894B (zh) 2019-11-15

Family

ID=58339089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611235463.1A Active CN106528894B (zh) 2016-12-28 2016-12-28 设置标签信息的方法及装置

Country Status (1)

Country Link
CN (1) CN106528894B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107295375A (zh) * 2017-06-13 2017-10-24 中国传媒大学 综艺节目内容特征获取***及应用***
CN107832287A (zh) * 2017-09-26 2018-03-23 晶赞广告(上海)有限公司 一种标签识别方法及装置、存储介质、终端
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
WO2018223534A1 (zh) * 2017-06-09 2018-12-13 平安科技(深圳)有限公司 一种多数据源数据的归类方法及服务器
CN109213841A (zh) * 2017-06-29 2019-01-15 武汉斗鱼网络科技有限公司 直播主题样本提取方法、存储介质、电子设备及***
CN109753563A (zh) * 2019-03-28 2019-05-14 深圳市酷开网络科技有限公司 基于大数据的标签提取方法、装置及计算机可读存储介质
CN110650364A (zh) * 2019-09-27 2020-01-03 北京达佳互联信息技术有限公司 视频态度标签提取方法及基于视频的交互方法
CN116092063A (zh) * 2022-12-09 2023-05-09 湖南润科通信科技有限公司 一种短视频关键词提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
CN102855312B (zh) * 2012-08-24 2013-08-14 武汉大学 一种面向领域主题的Web服务聚类方法
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
CN104239373A (zh) * 2013-06-24 2014-12-24 腾讯科技(深圳)有限公司 为文档添加标签的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
CN102855312B (zh) * 2012-08-24 2013-08-14 武汉大学 一种面向领域主题的Web服务聚类方法
CN104239373A (zh) * 2013-06-24 2014-12-24 腾讯科技(深圳)有限公司 为文档添加标签的方法及装置
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018223534A1 (zh) * 2017-06-09 2018-12-13 平安科技(深圳)有限公司 一种多数据源数据的归类方法及服务器
CN107295375A (zh) * 2017-06-13 2017-10-24 中国传媒大学 综艺节目内容特征获取***及应用***
CN109213841A (zh) * 2017-06-29 2019-01-15 武汉斗鱼网络科技有限公司 直播主题样本提取方法、存储介质、电子设备及***
CN109213841B (zh) * 2017-06-29 2021-01-01 武汉斗鱼网络科技有限公司 直播主题样本提取方法、存储介质、电子设备及***
CN107832287A (zh) * 2017-09-26 2018-03-23 晶赞广告(上海)有限公司 一种标签识别方法及装置、存储介质、终端
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
CN109753563A (zh) * 2019-03-28 2019-05-14 深圳市酷开网络科技有限公司 基于大数据的标签提取方法、装置及计算机可读存储介质
CN109753563B (zh) * 2019-03-28 2019-09-10 深圳市酷开网络科技有限公司 基于大数据的标签提取方法、装置及计算机可读存储介质
CN110650364A (zh) * 2019-09-27 2020-01-03 北京达佳互联信息技术有限公司 视频态度标签提取方法及基于视频的交互方法
CN110650364B (zh) * 2019-09-27 2022-04-01 北京达佳互联信息技术有限公司 视频态度标签提取方法及基于视频的交互方法
CN116092063A (zh) * 2022-12-09 2023-05-09 湖南润科通信科技有限公司 一种短视频关键词提取方法
CN116092063B (zh) * 2022-12-09 2024-05-17 湖南润科通信科技有限公司 一种短视频关键词提取方法

Also Published As

Publication number Publication date
CN106528894B (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN106528894A (zh) 设置标签信息的方法及装置
CN108009293B (zh) 视频标签生成方法、装置、计算机设备和存储介质
US8725717B2 (en) System and method for identifying topics for short text communications
JP6377807B2 (ja) オンライン・ソーシャル・ネットワークにおける検索クエリの書き換え
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
JP5687724B2 (ja) 関連キーワードを表示する方法およびシステム
JP2018022506A (ja) オンライン・ソーシャル・ネットワークにおける検索クエリのための静的ランク付け
US9646062B2 (en) News results through query expansion
CN106294787A (zh) 一种推送信息的方法、装置及电子设备
CN104104999B (zh) 音视频信息推荐方法及设备
CN104915426B (zh) 信息排序方法、用于生成信息排序模型的方法及装置
TWI539306B (zh) Information delivery method, processing server and merge server
CN106202294A (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
US20140337361A1 (en) User-specific feed generation system
CN104933171B (zh) 兴趣点数据关联方法和装置
CN109634436A (zh) 输入法的联想方法、装置、设备及可读存储介质
CN103699544B (zh) 跨页选择数据的方法和***
CN107357777A (zh) 提取标签信息的方法和装置
JP2010528351A (ja) 共通接辞を用いたキーワード順位を提供する方法およびシステム
US9135335B2 (en) Filmstrip-based query suggestions
CN107729486B (zh) 一种视频搜索方法及装置
CN105868348A (zh) 内容获取方法及装置
CN104166722B (zh) 一种推荐网站的方法和装置
CN111813236B (zh) 输入方法、装置、电子设备及可读存储介质
CN106611059A (zh) 推荐多媒体文件的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant