CN105893571A - 一种视频内容标签的建立方法和*** - Google Patents

一种视频内容标签的建立方法和*** Download PDF

Info

Publication number
CN105893571A
CN105893571A CN201610202499.3A CN201610202499A CN105893571A CN 105893571 A CN105893571 A CN 105893571A CN 201610202499 A CN201610202499 A CN 201610202499A CN 105893571 A CN105893571 A CN 105893571A
Authority
CN
China
Prior art keywords
video
keyword set
description information
grades
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610202499.3A
Other languages
English (en)
Inventor
张立宁
余婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Holding Beijing Co Ltd
LeTV Cloud Computing Co Ltd
Original Assignee
LeTV Holding Beijing Co Ltd
LeTV Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Holding Beijing Co Ltd, LeTV Cloud Computing Co Ltd filed Critical LeTV Holding Beijing Co Ltd
Priority to CN201610202499.3A priority Critical patent/CN105893571A/zh
Publication of CN105893571A publication Critical patent/CN105893571A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开公开了一种视频内容标签的建立方法和***,所述方法包括:获取存储于云服务器中的视频的网络地址;根据所述视频的网络地址,获取当前视频的播放网页;从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;基于所述描述信息进行关键字提取,得到当前视频的内容标签。本公开使得视频服务提供商能够根据存储于其云平台中视频的网络地址,通过网页爬取的方式获得该视频所在的播放网页,进而从播放网页中提取视频的内容标签,从而实现健全云平台中海量视频的内容标签。

Description

一种视频内容标签的建立方法和***
技术领域
本公开涉及云计算技术领域,尤其涉及种视频内容标签的建立方法和***。
背景技术
云计算平台中每个视频的内容标签健全与否对于实现海量视频的管理、分析以及推荐即为重要。对于一些商业性的综合视频播放网站(例如乐视网、爱奇艺网、土豆优酷网)来说,很多视频由于上传时间过早等原因,其内容标签往往残缺不全,为了补全这些残缺的内容标签,这些商业性的综合视频播放网站通常采用人工方式对每个视频逐个确认其内容标签是否健全,如有残缺则补全该内容标签,这种视频内容标签的健全方式需要耗费大量的人力、物力、财力,尤其是在云计算中对海量视频的内容标签进行确认、补全时,其工作量太过庞大而无法进行。
另外,对于一些专业性的类别视频播放网站(例如播放教学视频的教育平台),具有自己的一套视频管理***,但由于自身能力有限,不具备长程转码能力,当其想上传一个视频时,需要利用视频服务提供商(例如乐视云平台)提供的长程转码功能生成该视频的ID,再将该ID分发至视频服务提供商的CDN平台上,当其需要播放该视频时,只需要从视频服务提供商的CDN平台上取到该视频的网络地址即可实现播放。由于ID一般由一串无意义的字母、数字构成(每个视频的ID是唯一的),因此对于视频服务提供商来讲,存储于其云平台中的该视频的内容标签仅仅为一串无意义的字母、数字。因此,若视频服务提供商想对这种类型的视频补全其内容标签无疑是难上加难。
发明内容
本公开的目的是提供一种使得视频服务提供商能够根据存储于其云平台中视频的网络地址,通过网页爬取的方式获得该视频所在的播放网页,进而从播放网页中提取视频的内容标签,从而实现健全云平台中海量视频的内容标签。
根据本公开的一个方面,提供了一种视频内容标签的建立方法,包括以下步骤:
获取存储于云服务器中的视频的网络地址;
根据所述视频的网络地址,获取当前视频的播放网页;
从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;
基于所述描述信息进行关键字提取,得到当前视频的内容标签。
进一步,所述的视频内容标签的建立方法,其中,所述描述信息包括当前视频的标题和/或视频的内容简介。
进一步,所述的视频内容标签的建立方法,其中,所述基于所述描述信息进行关键字提取,得到当前视频的内容标签的步骤包括:
根据分词词性表,对所述描述信息进行分词,得到一级关键词集合;
根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。
进一步,所述的视频内容标签的建立方法,其中,在所述得到二级关键词集合的步骤之后,还包括以下步骤:
根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重;
根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。
进一步,所述的视频内容标签的建立方法,其中,在所述根据停用词表,对所述一级关键词集合进行过滤的步骤之前,还包括以下步骤:
将分词词性表存储于云服务器中,并更新所述分词词性表;
将停用词表存储于云服务器中,并更新所述停用词表。
根据本公开的另一个方面,提供了一种视频内容标签的建立***,包括以下模块:
网络地址获取模块,用于获取存储于云服务器中的视频的网络地址;
播放网页获取模块:用于根据所述视频的网络地址,获取当前视频的播放网页;
描述信息提取模块,用于从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;
视频内容标签提取模块,用于基于所述描述信息进行关键字提取,得到当前视频的内容标签。
进一步,所述的视频内容标签的建立***,其中,所述描述信息包括视频的标题和/或视频的内容简介。
进一步,所述的视频内容标签的建立***,其中,
所述视频内容标签提取模块包括:分词模块和停用词过滤模块;
所属分词模块,用于根据分词词性表,对所述描述信息进行分词,得到一级关键词集合;
停用词过滤模块,用于根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。
进一步,所述的视频内容标签的建立***,其中,所述视频内容标签提取模块,还包括常用词过滤模块:用于根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重,并根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。
进一步,所述的视频内容标签的建立***,还包括存储于云服务器中的分词词性表和停用词表,以及分词词性表更新模块和停用词表更新模块;
所述分词词性表更新模块,用于更新所述分词词性表;
所述停用词表更新模块,用于更新所述停用词表。
本公开使得视频服务提供商能够根据存储于其云平台中视频的网络地址,通过网页爬取的方式获得该视频所在的播放网页,进而从播放网页中提取视频的内容标签,从而实现健全云平台中海量视频的内容标签。
附图说明
图1是本公开视频内容标签的建立方法的步骤流程图;
图2是本公开视频内容标签的建立方法中基于所述描述信息进行关键字提取的步骤流程图;
图3是本公开视频内容标签的建立***的模块关系示意图;
图4是本公开视频内容标签的建立***中视频内容标签提取模块的模块关系示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本公开进一步详细说明。应当前理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在对本公开的具体实施方式介绍之前,首先介绍本公开所基于的前题条件。本公开中所述的云服务器为具有长程视频转码能力的视频服务提供商(例如乐视云平台)所搭建的云平台服务器群集中的一台或多台。一些使用云平台服务器群集所提供的长程转码服务的专业性的类别视频播放网站(例如播放教学视频的教育平台),其网站上具有其上传至云平台服务器群集中的视频的播放网页,且该视频播放网站在所述视频的播放网页中以自然语言为该视频编辑了标题、内容介绍等描述信息。
图1是本公开视频内容标签的建立方法的步骤流程图。
如图1所示,视频内容标签的建立方法包括以下步骤。
步骤S1,获取存储于云服务器中的视频的网络地址。
在步骤S1之前,使用云平台服务器群集所提供的长程转码服务的专业性的类别视频播放网站,将其网站上的视频利用视频服务提供商(例如乐视云平台)提供的长程转码功能生成该视频的ID,再将该ID分发至视频服务提供商的CDN平台中的一台或多台服务器(即云服务器),所述云服务器对所述视频进行存储。需要说明的是,由于视频服务提供商通常为大量的视频播放网站提供长程转码的服务,因此视频服务提供商的云服务器中存储有海量的视频、每个视频的ID以及每个视频的网络地址。因此,在步骤S1中,仅仅需要将所述视频的网络地址获取到即可。
步骤S2,根据所述视频的网络地址,获取当前视频的播放网页。
获取当前视频的播放网页是通过网页爬取算法获取。所是述网页爬取算法,指的基于现有技术中的网络爬虫的算法,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足***的一定停止条件。
步骤S3,从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息。
所述描述信息包括当前视频的标题和/或视频的内容简介。在视频播放网站的播放网页中,以自然语言为视频编辑了标题、内容介绍等描述信息。
步骤S4,基于所述描述信息进行关键字提取,得到当前视频的内容标签。
由于描述信息是以自然语言进行描述的,包括很多词语,其中有些词语可能是不需要的一些词语,因此,需要对描述信息采用预定的算法进行关键字提取,以过滤掉一些不需要的词语。
图2是本公开视频内容标签的建立方法中基于所述描述信息进行关键字提取的步骤流程图。
如图2所示,基于所述描述信息进行关键字提取的步骤包括以下步骤:
步骤S401,根据分词词性表,对所述描述信息进行分词,得到一级关键词集合。其中,所述一级关键词集合中包含多个一级关键词。
在上文中以介绍过,由于描述信息是以自然语言进行描述的,包括很多词语,其中有些词语可能是不需要的一些词语,需要对描述信息采用预定的算法进行关键字提取,以过滤掉一些不需要的词语。在本步骤中,仅仅是根据分词词性表中词语的词性对所述描述信息进行分词,一方面将词语分割,另一方面过滤掉一些结构词、语气词等词语,如的、呢、啊。另外,在本步骤之前,还包括将分词词性表存储于云服务器中,并更新所述分词词性表。
步骤S402,根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。
其中,所述二级关键词集合中包含多个二级关键词。在本步骤之前,还包括将停用词表存储于云服务器中,并更新所述停用词表。其中,停用词表采用现有技术中的停用词表。对所述一级关键词集合进行过滤指的是将一级关键词集合中的停用词过滤掉。若一级关键词集合没有出现在所述停用词表上的停用词,则无需过滤,此时所述一级关键词集合即为二级关键词集合。
步骤S403,根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重。
该权重指的是TF-IDF权值。所述词频-逆向文件频率算法,即TFIDF算法(term frequency–inverse document frequency)。其中,词频指的是某一个给定的词语在该文件中出现的频率;逆向文件频率指的是一个词语普遍重要性的度量。
步骤S404,根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。
所述标签关键词集合中所包含的所有的标签关键词即为该视频的内容标签。TFIDF算法通过计算一个字词的TF-IDF权值,以评估该词对于一个文件集或一个语料库中的其中一份文件的重要程度。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TFIDF算法倾向于过滤掉常见的词语,保留重要的词语。
在此需要说明的是,本公开基于所述描述信息进行关键字提取提供了两种实施方式,其中,第一实施方式包括步骤S401和步骤S402也可以实现视频的内容标签的提取。优选的,第二实施方式在第一实施方式的基础上,在步骤S402之后还包括步骤S403和步骤S404。
图3是本公开视频内容标签的建立***的模块关系示意图。
如图3所示,一种视频内容标签的建立***,包括以下模块:网络地址获取模块、播放网页获取模块、描述信息提取模块和视频内容标签提取模块。
网络地址获取模块,用于获取存储于云服务器中的视频的网络地址。在获取存储于云服务器中的视频的网络地址之前,使用云平台服务器群集所提供的长程转码服务的专业性的类别视频播放网站,将其网站上的视频利用视频服务提供商(例如乐视云平台)提供的长程转码功能生成该视频的ID,再将该ID分发至视频服务提供商的CDN平台中的一台或多台服务器(即云服务器),所述云服务器对所述视频进行存储。需要说明的是,由于视频服务提供商通常为大量的视频播放网站提供长程转码的服务,因此视频服务提供商的云服务器中存储有海量的视频、每个视频的ID以及每个视频的网络地址。因此,网络地址获取模块仅仅需要将所述视频的网络地址获取到即可。
播放网页获取模块:用于根据所述视频的网络地址,通过网页爬取算法获取当前视频的播放网页。所是述网页爬取算法,指的基于现有技术中的网络爬虫的算法,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足***的一定停止条件。
描述信息提取模块,用于从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;其中,所述描述信息包括视频的标题和/或视频的内容简介。所述描述信息包括当前视频的标题和/或视频的内容简介。在视频播放网站的播放网页中,以自然语言为视频编辑了标题、内容介绍等描述信息。
视频内容标签提取模块,用于基于所述描述信息进行关键字提取,得到当前视频的内容标签。由于描述信息是以自然语言进行描述的,包括很多词语,其中有些词语可能是不需要的一些词语,因此,需要对描述信息采用预定的算法进行关键字提取,以过滤掉一些不需要的词语。
图4是本公开视频内容标签的建立***中视频内容标签提取模块的模块关系示意图。
如图4所示,所述视频内容标签提取模块包括:分词模块、停用词过滤模块和常用词过滤模块。
所述分词模块,用于根据分词词性表,对所述描述信息进行分词,得到一级关键词集合。其中,所述一级关键词集合中包含多个一级关键词。
在上文中以介绍过,由于描述信息是以自然语言进行描述的,包括很多词语,其中有些词语可能是不需要的一些词语,需要对描述信息采用预定的算法进行关键字提取,以过滤掉一些不需要的词语。在本步骤中,仅仅是根据分词词性表中词语的词性对所述描述信息进行分词,一方面将词语分割,另一方面过滤掉一些结构词、语气词等词语,如的、呢、啊。另外,在本步骤之前,还包括将分词词性表存储于云服务器中,并更新所述分词词性表。
所述停用词过滤模块,用于根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。其中,所述二级关键词集合中包含多个二级关键词。在本步骤之前,还包括将停用词表存储于云服务器中,并更新所述停用词表。其中,停用词表采用现有技术中的停用词表。对所述一级关键词集合进行过滤指的是将一级关键词集合中的停用词过滤掉。若一级关键词集合没有出现在所述停用词表上的停用词,则无需过滤,此时所述一级关键词集合即为二级关键词集合。
所述常用词过滤模块:用于根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重,并根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。该权重指的是TF-IDF权值。所述词频-逆向文件频率算法,即TFIDF算法(term frequency–inverse document frequency)。其中,词频指的是某一个给定的词语在该文件中出现的频率;逆向文件频率指的是一个词语普遍重要性的度量。所述标签关键词集合中所包含的所有的标签关键词即为该视频的内容标签。TFIDF算法通过计算一个字词的TF-IDF权值,以评估该词对于一个文件集或一个语料库中的其中一份文件的重要程度。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TFIDF算法倾向于过滤掉常见的词语,保留重要的词语。
优选的,本公开视频内容标签的建立***还包括存储于云服务器中的分词词性表和停用词表,以及分词词性表更新模块和停用词表更新模块;所述分词词性表更新模块,用于更新所述分词词性表;所述停用词表更新模块,用于更新所述停用词表。
应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种视频内容标签的建立方法,包括:
获取存储于云服务器中的视频的网络地址;
根据所述视频的网络地址,获取当前视频的播放网页;
从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;
基于所述描述信息进行关键字提取,得到当前视频的内容标签。
2.根据权利要求1所述的方法,其中,所述描述信息包括当前视频的标题和/或视频的内容简介。
3.根据权利要求1或2所述的方法,其中,所述基于所述描述信息进行关键字提取,得到当前视频的内容标签包括:
根据分词词性表,对所述描述信息进行分词,得到一级关键词集合;
根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。
4.根据权利要求3所述的方法,其中,在所述得到二级关键词集合之后,还包括:
根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重;
根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。
5.根据权利要求3所述的方法,其中,在所述根据停用词表,对所述一级关键词集合进行过滤之前,还包括:
将分词词性表存储于云服务器中,并更新所述分词词性表;
将停用词表存储于云服务器中,并更新所述停用词表。
6.一种视频内容标签的建立***,其特征在于,包括以下模块:
网络地址获取模块,用于获取存储于云服务器中的视频的网络地址;
播放网页获取模块:用于根据所述视频的网络地址,获取当前视频的播放网页;
描述信息提取模块,用于从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;
视频内容标签提取模块,用于基于所述描述信息进行关键字提取,得到当前视频的内容标签。
7.根据权利要求6所述的***,其中,所述描述信息包括视频的标题和/或视频的内容简介。
8.根据权利要求6或7所述的***,其中,
所述视频内容标签提取模块包括:分词模块和停用词过滤模块;
所述分词模块,用于根据分词词性表,对所述描述信息进行分词,得到一级关键词集合;
所述停用词过滤模块,用于根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。
9.根据权利要求8所述的***,其中,所述视频内容标签提取模块,还包括常用词过滤模块:用于根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重,并根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。
10.根据权利要求8所述的***,还包括存储于云服务器中的分词词性表和停用词表,以及分词词性表更新模块和停用词表更新模块;
所述分词词性表更新模块,用于更新所述分词词性表;
所述停用词表更新模块,用于更新所述停用词表。
CN201610202499.3A 2016-03-31 2016-03-31 一种视频内容标签的建立方法和*** Pending CN105893571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610202499.3A CN105893571A (zh) 2016-03-31 2016-03-31 一种视频内容标签的建立方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610202499.3A CN105893571A (zh) 2016-03-31 2016-03-31 一种视频内容标签的建立方法和***

Publications (1)

Publication Number Publication Date
CN105893571A true CN105893571A (zh) 2016-08-24

Family

ID=57012110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610202499.3A Pending CN105893571A (zh) 2016-03-31 2016-03-31 一种视频内容标签的建立方法和***

Country Status (1)

Country Link
CN (1) CN105893571A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354861A (zh) * 2016-09-06 2017-01-25 中国传媒大学 电影标签自动标引方法及自动标引***
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN107977375A (zh) * 2016-10-25 2018-05-01 央视国际网络无锡有限公司 一种视频标签生成方法及装置
CN108446276A (zh) * 2018-03-21 2018-08-24 腾讯音乐娱乐科技(深圳)有限公司 确定歌单关键词的方法和装置
CN109299328A (zh) * 2018-12-03 2019-02-01 广州华多网络科技有限公司 一种视频搜索方法、服务器、客户端及存储介质
CN109618236A (zh) * 2018-12-13 2019-04-12 连尚(新昌)网络科技有限公司 视频评论处理方法和装置
CN109688428A (zh) * 2018-12-13 2019-04-26 连尚(新昌)网络科技有限公司 视频评论生成方法和装置
CN112069950A (zh) * 2020-08-25 2020-12-11 北京字节跳动网络技术有限公司 提取热词的方法、***、电子设备及介质
CN112084920A (zh) * 2020-08-31 2020-12-15 北京字节跳动网络技术有限公司 提取热词的方法、装置、电子设备及介质
CN113507613A (zh) * 2021-06-07 2021-10-15 茂名市群英网络有限公司 基于cdn的视频录入调度***及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及***
US20140006430A1 (en) * 2006-08-08 2014-01-02 CastTV Inc. Indexing multimedia web content
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法
CN104980770A (zh) * 2014-04-09 2015-10-14 杭州迪普科技有限公司 一种视频数据内容下载方法以及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140006430A1 (en) * 2006-08-08 2014-01-02 CastTV Inc. Indexing multimedia web content
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及***
CN104980770A (zh) * 2014-04-09 2015-10-14 杭州迪普科技有限公司 一种视频数据内容下载方法以及装置
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354861B (zh) * 2016-09-06 2019-09-20 中国传媒大学 电影标签自动标引方法及自动标引***
CN106354861A (zh) * 2016-09-06 2017-01-25 中国传媒大学 电影标签自动标引方法及自动标引***
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN107977375A (zh) * 2016-10-25 2018-05-01 央视国际网络无锡有限公司 一种视频标签生成方法及装置
CN108446276A (zh) * 2018-03-21 2018-08-24 腾讯音乐娱乐科技(深圳)有限公司 确定歌单关键词的方法和装置
CN108446276B (zh) * 2018-03-21 2022-02-25 腾讯音乐娱乐科技(深圳)有限公司 确定歌单关键词的方法和装置
CN109299328A (zh) * 2018-12-03 2019-02-01 广州华多网络科技有限公司 一种视频搜索方法、服务器、客户端及存储介质
CN109688428A (zh) * 2018-12-13 2019-04-26 连尚(新昌)网络科技有限公司 视频评论生成方法和装置
CN109688428B (zh) * 2018-12-13 2022-01-21 连尚(新昌)网络科技有限公司 视频评论生成方法和装置
CN109618236A (zh) * 2018-12-13 2019-04-12 连尚(新昌)网络科技有限公司 视频评论处理方法和装置
CN112069950A (zh) * 2020-08-25 2020-12-11 北京字节跳动网络技术有限公司 提取热词的方法、***、电子设备及介质
CN112084920A (zh) * 2020-08-31 2020-12-15 北京字节跳动网络技术有限公司 提取热词的方法、装置、电子设备及介质
CN113507613A (zh) * 2021-06-07 2021-10-15 茂名市群英网络有限公司 基于cdn的视频录入调度***及方法

Similar Documents

Publication Publication Date Title
CN105893571A (zh) 一种视频内容标签的建立方法和***
CN105913072A (zh) 视频分类模型的训练方法和视频分类方法
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN108038119A (zh) 利用新词发现投资标的的方法、装置及存储介质
CN106570144A (zh) 推荐信息的方法和装置
US20150154249A1 (en) Data ingestion module for event detection and increased situational awareness
CN104679825A (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN103686244A (zh) 视频数据的管理方法及其***
CN102314497A (zh) 一种用于识别标记语言文件主体内容的方法和设备
CN104516961A (zh) 一种基于地域的话题挖掘及话题走势分析方法及***
CN106354860A (zh) 基于标签集的信息资源自动贴标签并自动推送的方法
CN104142995A (zh) 基于视觉属性的社会事件识别方法
CN103177036A (zh) 一种标签自动提取方法和***
DE202014010883U1 (de) Systeme für das Assoziieren von Microposts mit geografischen Standorten
CN103744987B (zh) 基于dom树匹配的视频网站媒资聚合方法和***
CN111061883A (zh) 更新知识图谱的方法、装置、设备及存储介质
CN102999511A (zh) 一种页面快速转换方法、装置和***
CN103761257A (zh) 基于移动浏览器的网页处理方法及***
CN103714120A (zh) 一种从用户url访问记录中提取用户兴趣话题的***
US20070198491A1 (en) System and method for searching and filtering web pages
CN106485525A (zh) 信息处理方法及装置
CN104156458B (zh) 一种信息的提取方法及装置
CN103530351A (zh) 一种网络数据信息的搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160824

WD01 Invention patent application deemed withdrawn after publication