CN101833587A - 网络视频搜索*** - Google Patents
网络视频搜索*** Download PDFInfo
- Publication number
- CN101833587A CN101833587A CN 201010186145 CN201010186145A CN101833587A CN 101833587 A CN101833587 A CN 101833587A CN 201010186145 CN201010186145 CN 201010186145 CN 201010186145 A CN201010186145 A CN 201010186145A CN 101833587 A CN101833587 A CN 101833587A
- Authority
- CN
- China
- Prior art keywords
- submodule
- links
- unit
- video
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
一种网络应用技术领域的网络视频搜索***,包括:数据存储模块、业务处理模块和用户接口模块,其中:所述的数据存储模块包括:网络视频爬虫子模块和数据库子模块;所述的业务处理模块包括:搜索接口子模块、数据库操作子模块、网络视频热词分析子模块、用户兴趣模型管理子模块、网络视频地址探测子模块和***配置管理子模块。本发明为用户提供多层次的网络视频搜索服务,结合用户的兴趣主动智能地为用户提供网络视频,提供网络视频下载功能,***具有分析网络视频热点词汇的能力,同时***管理员能够通过多选择性的***运行配置管理子模块去合理有效地管理***,网络视频搜索所用的时间大大降低,且准确率得到提高。
Description
技术领域
本发明涉及的是一种网络应用技术领域的***,具体是一种网络视频搜索***。
背景技术
随着互联网技术的不断发展,目前网络视频已经成为了传递信息中比较广泛的媒介。主流视频运营网站层出不穷,国内的比较知名的有优酷网(youku)、土豆网(tudou)等等。国外的知名的有youtube等等。一些综合门户网站也都有了各自视频服务,用来播放新闻等媒体内容。搜索引擎除了向用户提供搜索的功能外,从本质上来说是一个数据信息统计分析的工具。早期互联网以文字信息为主,如今网络视频成为了主要信息载体,搜索引擎需要针对视频这种媒体有相应的统计分析办法。
经对现有文献检索发现,2007年北京交通大学硕士学位论文《基于网络视频业务的搜索引擎的设计与实现》,分类号为TP393.09,该文主要讨论了基于网络视频业务的搜索引擎***,其***架构主要包括了3个模块:信息抓取模块,信息索引模块,信息检索模块,其中信息抓取模块主要包括网络蜘蛛从视频网站上抓取信息,并进行分析提取,把最终的信息存入到数据库中。信息检索模块主要是从数据库中读取视频的属性信息,经过中文文辞处理,采用Lucene生成索引文件。信息检索模块包括用户接口和索引器,用户接口主要是接受用户输入的关键字,把搜索结果返回给用户,索引器主要根据用户的关键词,检索索引文件,并按照一定的要求进行排序。该论文虽然讨论了实现网络视频搜索引擎的办法,但是其所设计的搜索***提供的功能较单一,只能够搜索网络视频,且搜索所用时间长,不能提供多层次的搜索接口,也不具有网络视频热词分析功能、用户兴趣管理功能和网络视频地址探测功能。
发明内容
本发明的目的在于克服现有技术中存在的上述不足,提供一种网络视频搜索***。本发明通过分析网络视频数据和用户搜索网络视频的行为,实现了多功能智能化的网络视频搜索监控***,具有用户个性化,网络视频可下载,视频搜索多层次,***运行配置灵活性和网络视频热点可统计性的优点。
本发明是通过以下技术方案实现的:
本发明包括:数据存储模块、业务处理模块和用户接口模块,其中:数据存储模块和业务处理模块相连传输数据信息和处理信息,业务处理模块与用户接口模块相连传输搜索请求信息和搜索结果信息。
所述的数据存储模块获取并存储网络视频数据,包括:网络视频爬虫子模块和数据库子模块,其中:网络视频爬虫子模块和数据库子模块相连传输网络视频数据信息,网络视频爬虫子模块与业务处理模块相连传输模块运行配置信息,数据库子模块与业务处理模块相连传输数据库操作请求信息和数据库操作返回数据。
所述的网络视频爬虫子模块包括:页面下载单元、页面内容分析单元和视频信息提取单元,其中:页面下载单元与页面内容分析单元相连待爬取视频网站页面数据,页面内容分析单元与视频信息提取单元相连传输经过分析后页面中相关视频信息,视频信息提取单元和数据库子模块相连传输页面中提取出的精确视频信息。
所述的业务处理模块包括:搜索接口子模块、数据库操作子模块、网络视频热词分析子模块、用户兴趣模型管理子模块、网络视频地址探测子模块和***配置管理子模块,其中:搜索接口子模块与用户接口模块相连传输搜索请求信息和搜索结果信息,数据库操作子模块与搜索接口子模块相连传输搜索条件信息和搜索返回信息,数据库操作子模块与网络视频热词分析子模块相连传输数据库操作信息和热词分析结果信息,数据库操作子模块与用户兴趣模型管理子模块相连传输数据库操作信息和用户兴趣模型更新信息,数据库操作子模块与网络视频地址探测子模块相连传输数据库操作信息和网络视频地址信息,***配置管理子模块与用户兴趣模型管理子模块相连传输块运行配置信息,***配置管理子模块与网络视频热词分析子模块相连传输运行配置信息,***配置管理子模块与网络视频地址探测子模块相连传输运行配置信息,***配置管理子模块与数据库操作子模块相连传输运行配置信息,***配置管理子模块与网络视频爬虫子模块相连传输运行配置信息,数据库操作子模块与数据存储模块相连传输数据库存储信息。
所述的数据库操作子模块包括:数据库检索数据单元、数据库添加数据单元、数据库删除数据单元、数据库更新数据单元和数据库更新视图单元,其中:数据库检索数据单元与数据存储模块相连传输数据库检索语句和返回结果数据,数据库添加数据单元与数据存储模块相连传输数据库添加数据命令,数据库删除数据单元与数据存储模块相连传输数据库删除数据命令,数据库更新数据单元与数据存储模块相连传输数据库更新数据命令,数据库更新视图单元与数据存储模块相连传输数据库视频更新命令。
所述的搜索接口子模块包括:用户搜索条件接受单元、用户搜索结果返回单元、搜索条件处理单元和搜索执行单元,其中:用户搜索条件接受单元与搜索条件处理单元相连传输用户原始搜索条件信息,搜索条件处理单元与搜索执行单元相连传输经过***处理后的搜索指令信息,搜索执行单元与数据库操作子模块相连传输数据库操作信息,用户搜索结果返回单元与数据库操作子模块相连传输数据库操作返回数据。
所述的网络视频热词分析子模块包括:视频标题提取单元、视频标题分词单元、标题词汇聚类单元、标题词汇统计单元和热点词汇更新单元,其中:视频标题提取单元与视频标题分词单元相连传输被分析的视频标题集合,视频标题分词单元与标题词汇聚类单元相连传输构成视频标题的词组,标题词汇聚类单元与标题词汇统计单元相连传输聚类完成的词汇空间,标题词汇统计单元与热点词汇更新单元相连传输出现率较高的词汇集合,热点词汇更新单元与数据库操作子模块相连传输添加数据的数据库操作命令,视频标题提取单元与数据库操作子模块相连传输获取视频标题的数据库操作语句。
所述的用户兴趣模型管理子模块包括:用户行为表示单元、用户兴趣模型更新单元和用户兴趣推荐单元,其中:用户行为表示单元与用户兴趣模型更新单元相连传输用户搜素行为标识信息,用户兴趣模型更新单元与数据库操作子模块相连传输更新用户兴趣的数据库操作语句信息,用户兴趣推荐单元与数据库操作子模块相连传输用户推荐视频信息提取数据库操作语句信息。
所述的网络视频地址探测子模块包括:数据包获取单元、数据包内容分析单元和文件地址提取单元,其中:数据包获取单元与数据包内容分析单元相连传输抓取的HTTP(HyperText Transfer Protocol,超文本传输协议)数据包,数据包内容分析单元与文件地址提取单元相连传输含有文件地址的HTTP数据包,文件地址提取单元与数据库操作子模块相连传输更新视频信息的数据库更新操作语句。
所述的***配置管理子模块包括:网络视频爬虫配置单元、网络视频地址探测配置单元、用户兴趣模型管理配置单元、网络视频热点词汇分析配置单元和陈旧数据删除单元,其中:网络视频爬虫配置单元与数据存储模块相连传输爬虫运行配置修改信息,用户兴趣模型管理配置单元与用户兴趣模型管理子模块相连传输模块运行配置信息,网络视频热点词汇分析配置单元与网络视频热词分析子模块相连传输模块运行配置信息,网络视频地址探测配置单元与网络视频地址探测子模块相连传输模块运行配置信息,陈旧数据删除单元与数据库操作子模块相连传输删除视频信息的数据库操作语句信息。
与现有技术相比,本发明的有益效果是:本发明能够为用户提供多层次的网络视频搜索服务,能够结合用户的兴趣主动智能地为用户提供网络视频,提供网络视频下载功能,***具有分析网络视频热点词汇的能力,同时***管理员能够通过多选择性的***运行配置管理子模块去合理有效地管理***,网络视频搜索所用的时间大大降低,且准确率得到提高。
附图说明
图1是本发明***的组成连接示意图。
具体实施方式
以下结合附图对本发明的***进一步描述:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,本实施例包括:数据存储模块、业务处理模块和用户接口模块,其中:数据存储模块和业务处理模块相连传输数据信息和处理信息,业务处理模块与用户接口模块相连传输搜索请求信息和搜索结果信息。
所述的数据存储模块获取并存储网络视频数据,包括:网络视频爬虫子模块和数据库子模块,其中:网络视频爬虫子模块和数据库子模块相连传输网络视频数据信息,网络视频爬虫子模块与业务处理模块相连传输模块运行配置信息,数据库子模块与业务处理模块相连传输数据库操作请求信息和数据库操作返回数据。
所述的网络视频爬虫子模块包括:页面下载单元、页面内容分析单元和视频信息提取单元,其中:页面下载单元与页面内容分析单元相连待爬取视频网站页面数据,页面内容分析单元与视频信息提取单元相连传输经过分析后页面中相关视频信息,视频信息提取单元和数据库子模块相连传输页面中提取出的精确视频信息。
本实施例中***提供给用户的每一个网络视频的数据包含:(1)视频的图片、(2)视屏的来源网站、(3)视频的标题、(4)视频的点击率、(5)视频的下载地址和(6)视频的播放链接地址。由于每个视频网站其页面布局都大相径庭,所以网络视频爬虫需要针对每个视频网站设计一个,在爬虫模块设计之前,需要对目标视频网站进行网页元素结构分析。网络视频爬虫子模块将根据视频网站其自身网页的一些组织信息进行视频数据的爬取,这些包括视频网站自身的分类结构和热点排序。网络视频爬虫子模块爬取到的网络视频数据将存储到服务器的数据库相关表中,同时相关的视图将得到更新。由于是聚焦爬取,爬取的信息需要精确到位,考虑到目前网络视频网站页面结构各不一样,实施中针对每一个主流的网络视频网站建立一个爬虫,整体构成一个爬虫池。
本实施例中用SQL SERVER 2005来搭建数据库子模块,针对不同的网络视频网站分别设计存储视频数据的视频数据表,这些表拥有相同的表结构:表的主标识、网络视频的播放地址、网络视频的标题、网络视频的显示图片链接地址、网络视频的播放数、网络视频文件的远程地址和网络视频数据被更新的时间。针对用户兴趣库模型需要建立用户兴趣库模型的表,表的结构如下:用户ID(表的主标识)、针对每个视频类别用户的点击率、针对每个视频网站用户的点击率和用户经常搜索的关键词。针对整个***运行建立事件记录表,用来记录***运行过程中的事件,表的结构如下:事件ID(表的主标识)、事件内容、事件发生源和事件发生时间。针对不同类别的网络视频,需要建立针对每个类别的视图,每次视频数据表发生更新,需要重新刷新相应的视图。视图建立的规范以每个视频网站的每个分类建立,比如针对优酷网站的体育类网络视频,可以建立名字为youku_sport_view的视图。
所述的业务处理模块包括:搜索接口子模块、数据库操作子模块、网络视频热词分析子模块、用户兴趣模型管理子模块、网络视频地址探测子模块和***配置管理子模块,其中:搜索接口子模块与用户接口模块相连传输搜索请求信息和搜索结果信息,数据库操作子模块与搜索接口子模块相连传输搜索条件信息和搜索返回信息,数据库操作子模块与网络视频热词分析子模块相连传输数据库操作信息和热词分析结果信息,数据库操作子模块与用户兴趣模型管理子模块相连传输数据库操作信息和用户兴趣模型更新信息,数据库操作子模块与网络视频地址探测子模块相连传输数据库操作信息和网络视频地址信息,***配置管理子模块与用户兴趣模型管理子模块相连传输块运行配置信息,***配置管理子模块与网络视频热词分析子模块相连传输运行配置信息,***配置管理子模块与网络视频地址探测子模块相连传输运行配置信息,***配置管理子模块与数据库操作子模块相连传输运行配置信息,***配置管理子模块与网络视频爬虫子模块相连传输运行配置信息,数据库操作子模块与数据存储模块相连传输数据库存储信息。
所述的数据库操作子模块包括:数据库检索数据单元、数据库添加数据单元、数据库删除数据单元、数据库更新数据单元和数据库更新视图单元,其中:数据库检索数据单元与数据存储模块相连传输数据库检索语句和返回结果数据,数据库添加数据单元与数据存储模块相连传输数据库添加数据命令,数据库删除数据单元与数据存储模块相连传输数据库删除数据命令,数据库更新数据单元与数据存储模块相连传输数据库更新数据命令,数据库更新视图单元与数据存储模块相连传输数据库视频更新命令。
本实施例中采用ADO.NET建立数据库操作子模块,ADO.NET库具有良好的对于数据库的可操作性。在实施数据库操作子模块的过程中,需要建立以下一些功能接口:1向数据库中相关表添加数据的功能接口;2从数据库中相关表中删除数据的功能接口;3修改数据库中相关表数据的功能接口;4从数据库中检索相关数据的功能接口。实施中需要考虑到所有的功能接口的参数,比如添加数据的功能,需要考虑到向哪个表中添加数据,添加什么数据。
所述的搜索接口子模块包括:用户搜索条件接受单元、用户搜索结果返回单元、搜索条件处理单元和搜索执行单元,其中:用户搜索条件接受单元与搜索条件处理单元相连传输用户原始搜索条件信息,搜索条件处理单元与搜索执行单元相连传输经过***处理后的搜索指令信息,搜索执行单元与数据库操作子模块相连传输数据库操作信息,用户搜索结果返回单元与数据库操作子模块相连传输数据库操作返回数据。
本实施例中有四种搜索接口:1从网站搜索网络视频,这时搜索接口将把特定网站名字传输给数据库操作模块,而数据库操作模块将根据网站名字检索出相关视频数据返回;2从类别搜索网络视频,这时搜索接口将把特定类别名字传输给数据库操作模块,而数据库操作模块将根据类别名字检索出相关视频数据返回;3从关键词搜索网络视频,这时搜索接口将把特定关键词传输给数据库操作模块,而数据库操作模块将根据关键词检索出相关视频数据返回;4高级网络视频搜索,分别将网站名字,类别名字,关键词名字,播放数数量和搜索返回数量条件组合进行网络视频的搜索,将获得更精确的网络视频。
所述的网络视频热词分析子模块包括:视频标题提取单元、视频标题分词单元、标题词汇聚类单元、标题词汇统计单元和热点词汇更新单元,其中:视频标题提取单元与视频标题分词单元相连传输被分析的视频标题集合,视频标题分词单元与标题词汇聚类单元相连传输构成视频标题的词组,标题词汇聚类单元与标题词汇统计单元相连传输聚类完成的词汇空间,标题词汇统计单元与热点词汇更新单元相连传输出现率较高的词汇集合,热点词汇更新单元与数据库操作子模块相连传输添加数据的数据库操作命令,视频标题提取单元与数据库操作子模块相连传输获取视频标题的数据库操作语句。
本实施例中把每个视频的标题看做是一串词汇的向量,然后找出出现率最多的词汇。热点词汇会随着时间的变化而变化,所以该流程要间隔一段时间运作一次,使热词排序的内容随时间而动态变化。通过对于视频热点词汇的统计分析,***能够对特定时间内的网络视频焦点做监控。网络视频热词分析子模块通过数据库操作子模块将网络视频数据库中播放数排列靠前的网络视频的标题检索出来,然后对这些标题进行分析,具体流程如下:1从数据库中检索出点击率最高的若干视频(数量可配置);2对这些视频的标题作分词,使视频标题成为词的向量;3对这些视频标题词向量进行聚类;4在每一个类中,分别统计出最高出现频率的相关词;5删除频率较高的无用词;6对热点词汇列表进行更新。热词分析以一定周期为间隔进行运行,每一次运行后将更新***中的网络视频热词排行。
所述的用户兴趣模型管理子模块将根据用户的搜索行为建立针对用户的兴趣模型,当用户再一次登录***时,***将根据用户的兴趣模型库向用户推荐可能令该用户感兴趣的网络视频,包括:用户行为表示单元、用户兴趣模型更新单元和用户兴趣推荐单元,其中:用户行为表示单元与用户兴趣模型更新单元相连传输用户搜素行为标识信息,用户兴趣模型更新单元与数据库操作子模块相连传输更新用户兴趣的数据库操作语句信息,用户兴趣推荐单元与数据库操作子模块相连传输用户推荐视频信息提取数据库操作语句信息。
所述的用户兴趣模型管理子模块的工作过程为:1用户链接至平台页面;2如果用户使以前有过搜索历史,则根据客户端的token,平台将根据数据库中的该用户的兴趣模型推荐网络视频;3如果该用户没有搜索历史,则为该用户新建一个兴趣模型,同时在客户端的cookie中设置好token;4用户的每一次视频搜索,都将修改服务器中该用户的兴趣模型;5对于很长时间没有变动的用户兴趣模型,这些数据将被删除,以便控制数据中数据的大小。在数据库中用户兴趣模型是以树状的形式保存用户兴趣信息的,模型中设置两个类分别是视频网站和视频分类,而各个分类下面又有子分类,如视频网站中有优酷网,或者视频类别中有体育类,各个子类下面保存有用户搜索行为对应的权重,根据这些权重可以挑选出推荐视频。
所述的网络视频地址探测子模块探测网络视频文件的远程地址,从而提供用户下载网络视频的功能,包括:数据包获取单元、数据包内容分析单元和文件地址提取单元,其中:数据包获取单元与数据包内容分析单元相连传输抓取的HTTP数据包,数据包内容分析单元与文件地址提取单元相连传输含有文件地址的HTTP数据包,文件地址提取单元与数据库操作子模块相连传输更新视频信息的数据库更新操作语句。
所述的网络视频地址探测子模块的工作过程为:通过获得网络视频的播放页面地址,链接至该网络视频的播放页面,同时应用winpcap抓包程序获得本地向视频服务器的HTTP请求包,分析包头中的请求内容,可以获得网络视频文件的远程地址。该模块通过数据库操作子模块获得网络视频的播放地址,处理完毕后,又通过数据库操作子模块将文件地址存储入相应的表中。
所述的***配置管理子模块包括:网络视频爬虫配置单元、网络视频地址探测配置单元、用户兴趣模型管理配置单元、网络视频热点词汇分析配置单元和陈旧数据删除单元,其中:网络视频爬虫配置单元与数据存储模块相连传输爬虫运行配置修改信息,用户兴趣模型管理配置单元与用户兴趣模型管理子模块相连传输模块运行配置信息,网络视频热点词汇分析配置单元与网络视频热词分析子模块相连传输模块运行配置信息,网络视频地址探测配置单元与网络视频地址探测子模块相连传输模块运行配置信息,陈旧数据删除单元与数据库操作子模块相连传输删除视频信息的数据库操作语句信息。
本实施例中用xml文件来记录各模块的配置参数。针对多层次的搜索接口子模块,可以配置其提供对于哪些网站和哪些类别的搜索接口;针对网络视频地址探测子模块,可以配置其运行还是停止以及先对哪些网络视频进行地址探测;针对网络视频热词分析子模块,可以配置其运行还是停止以及运行的周期间隔;针对用户兴趣模型管理子模块,可以配置其是否启用以及删除时间;针对网络视频爬虫子模块,可以配置哪些爬虫启动、哪些爬虫停止以及爬虫爬取的起始时间和爬取间隔。***配置管理子模块将根据***管理员的需求将改变写到文件中,而各子模块以服务的形式运行在操作***后台中,一旦配置改变,***通过服务管理将消息发至相应的服务,服务根据新的配置参数重启运行。
本实施例中当该***拥有当前用户的兴趣模型时,则***会根据该兴趣模型从数据库子模块中检索视频数据,将这些视频数据传给用户接口模块,通过网页显示出来,从而用户能够知道当前网络视频有哪些热点;若***没有该用户的兴趣模型,则***将会将最流行的网络视频数据从数据库子模块中检索出来传给用户接口模块,通过网页显示出来。
当采用本实施例***分别对中国五大视频网站:1优酷网;2土豆网;3酷六网;4六间房;5五六视频网,其中:优酷网视频数量5625,土豆网视频数量3403,酷六网视频数量1495,六间房视频数量2355,五六网视频数量3320,同时主要针对四类视频进行爬取:1资讯类视频;2体育类视频;3动漫类视频;4娱乐类视频,其中:资讯类视频数量3309,体育类视频数量3160,动漫类视频数量2696,娱乐类视频数量3173,不同搜索接口和搜索参数下得到的视频数量和消耗的时间如表1所示。由于本实施例已做好相关的索引和视图,所以针对网站和类别搜索视频所用的时间复杂度很小,消耗的时间很少,且能准确的搜索和下载符合条件的视频。
表1
搜索接口 | 搜索参数 | 搜索到的视频数量 | 消耗的时间(单位:秒) |
来源网站 | 优酷 | 400 | 0.09 |
来源网站 | 土豆 | 400 | 0.06 |
来源网站 | 六间房 | 400 | 0.07 |
来源网站 | 酷六 | 400 | 0.10 |
来源网站 | 五六视频 | 400 | 0.07 |
视频类别 | 全部 | 500 | 0.13 |
视频类别 | 资讯 | 500 | 0.17 |
视频类别 | 体育 | 500 | 0.11 |
视频类别 | 娱乐 | 500 | 0.18 |
视频类别 | 卡通 | 500 | 0.15 |
关键字搜索 | “NBA” | 153 | 0.08 |
高级搜索 | 优酷+体育+NBA+200播放次数+200返回次数 | 22 | 0.09 |
Claims (8)
1.一种网络视频搜索***,其特征在于,包括:数据存储模块、业务处理模块和用户接口模块,其中:数据存储模块和业务处理模块相连传输数据信息和处理信息,业务处理模块与用户接口模块相连传输搜索请求信息和搜索结果信息;
所述的数据存储模块获取并存储网络视频数据,包括:网络视频爬虫子模块和数据库子模块,其中:网络视频爬虫子模块和数据库子模块相连传输网络视频数据信息,网络视频爬虫子模块与业务处理模块相连传输运行配置信息,数据库子模块与业务处理模块相连传输数据库操作请求信息和数据库操作返回数据;
所述的业务处理模块包括:搜索接口子模块、数据库操作子模块、网络视频热词分析子模块、用户兴趣模型管理子模块、网络视频地址探测子模块和***配置管理子模块,其中:搜索接口子模块与用户接口模块相连传输搜索请求信息和搜索结果信息,数据库操作子模块与搜索接口子模块相连传输搜索条件信息和搜索返回信息,数据库操作子模块与网络视频热词分析子模块相连传输数据库操作信息和热词分析结果信息,数据库操作子模块与用户兴趣模型管理子模块相连传输数据库操作信息和用户兴趣模型更新信息,数据库操作子模块与网络视频地址探测子模块相连传输数据库操作信息和网络视频地址信息,***配置管理子模块与用户兴趣模型管理子模块相连传输块运行配置信息,***配置管理子模块与网络视频热词分析子模块相连传输运行配置信息,***配置管理子模块与网络视频地址探测子模块相连传输运行配置信息,***配置管理子模块与数据库操作子模块相连传输运行配置信息,***配置管理子模块与网络视频爬虫子模块相连传输运行配置信息,数据库操作子模块与数据存储模块相连传输数据库存储信息。
2.根据权利要求1所述的网络视频搜索***,其特征是,所述的网络视频爬虫子模块包括:页面下载单元、页面内容分析单元和视频信息提取单元,其中:页面下载单元与页面内容分析单元相连待爬取视频网站页面数据,页面内容分析单元与视频信息提取单元相连传输经过分析后页面中相关视频信息,视频信息提取单元和数据库子模块相连传输页面中提取出的精确视频信息。
3.根据权利要求1所述的网络视频搜索***,其特征是,所述的数据库操作子模块包括:数据库检索数据单元、数据库添加数据单元、数据库删除数据单元、数据库更新数据单元和数据库更新视图单元,其中:数据库检索数据单元与数据存储模块相连传输数据库检索语句和返回结果数据,数据库添加数据单元与数据存储模块相连传输数据库添加数据命令,数据库删除数据单元与数据存储模块相连传输数据库删除数据命令,数据库更新数据单元与数据存储模块相连传输数据库更新数据命令,数据库更新视图单元与数据存储模块相连传输数据库更新视图命令。
4.根据权利要求1所述的网络视频搜索***,其特征是,所述的搜索接口子模块包括:用户搜索条件接受单元、用户搜索结果返回单元、搜索条件处理单元和搜索执行单元,其中:用户搜索条件接受单元与搜索条件处理单元相连传输用户原始搜索条件信息,搜索条件处理单元与搜索执行单元相连传输经过***处理后的搜索指令信息,搜索执行单元与数据库操作子模块相连传输数据库操作信息,用户搜索结果返回单元与数据库操作子模块相连传输数据库操作返回数据。
5.根据权利要求1所述的网络视频搜索***,其特征是,所述的网络视频热词分析子模块包括:视频标题提取单元、视频标题分词单元、标题词汇聚类单元、标题词汇统计单元和热点词汇更新单元,其中:视频标题提取单元与视频标题分词单元相连传输被分析的视频标题集合,视频标题分词单元与标题词汇聚类单元相连传输构成视频标题的词组,标题词汇聚类单元与标题词汇统计单元相连传输聚类完成的词汇空间,标题词汇统计单元与热点词汇更新单元相连传输出现率较高的词汇集合,热点词汇更新单元与数据库操作子模块相连传输添加数据的数据库操作命令,视频标题提取单元与数据库操作子模块相连传输获取视频标题的数据库操作语句。
6.根据权利要求1所述的网络视频搜索***,其特征是,所述的用户兴趣模型管理子模块包括:用户行为表示单元、用户兴趣模型更新单元和用户兴趣推荐单元,其中:用户行为表示单元与用户兴趣模型更新单元相连传输用户搜素行为标识信息,用户兴趣模型更新单元与数据库操作子模块相连传输更新用户兴趣的数据库操作语句信息,用户兴趣推荐单元与数据库操作子模块相连传输用户推荐视频信息提取数据库操作语句信息。
7.根据权利要求1所述的网络视频搜索***,其特征是,所述的网络视频地址探测子模块包括:数据包获取单元、数据包内容分析单元和文件地址提取单元,其中:数据包获取单元与数据包内容分析单元相连传输抓取的HTTP数据包,数据包内容分析单元与文件地址提取单元相连传输含有文件地址的HTTP数据包,文件地址提取单元与数据库操作子模块相连传输更新视频信息的数据库更新操作语句信息。
8.根据权利要求1所述的网络视频搜索***,其特征是,所述的***配置管理子模块包括:网络视频爬虫配置单元、网络视频地址探测配置单元、用户兴趣模型管理配置单元、网络视频热点词汇分析配置单元和陈旧数据删除单元,其中:网络视频爬虫配置单元与数据存储模块相连传输爬虫运行配置修改信息,用户兴趣模型管理配置单元与用户兴趣模型管理子模块相连传输模块运行配置信息,网络视频热点词汇分析配置单元与网络视频热词分析子模块相连传输模块运行配置信息,网络视频地址探测配置单元与网络视频地址探测子模块相连传输模块运行配置信息,陈旧数据删除单元与数据库操作子模块相连传输删除视频信息的数据库操作语句信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010186145 CN101833587A (zh) | 2010-05-28 | 2010-05-28 | 网络视频搜索*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010186145 CN101833587A (zh) | 2010-05-28 | 2010-05-28 | 网络视频搜索*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101833587A true CN101833587A (zh) | 2010-09-15 |
Family
ID=42717656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010186145 Pending CN101833587A (zh) | 2010-05-28 | 2010-05-28 | 网络视频搜索*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101833587A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102625158A (zh) * | 2011-08-10 | 2012-08-01 | 苏州闻道网络科技有限公司 | 视频管理*** |
CN102630049A (zh) * | 2011-12-31 | 2012-08-08 | 上海聚力传媒技术有限公司 | 一种用于确定用户关于在播视频的兴趣度的方法和设备 |
CN102760058A (zh) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | 面向大规模协作开发的海量软件项目共享方法 |
CN103020212A (zh) * | 2012-12-07 | 2013-04-03 | 合一网络技术(北京)有限公司 | 一种基于用户查询日志实时发现热点视频的方法和装置 |
CN103179441A (zh) * | 2011-12-21 | 2013-06-26 | 腾讯科技(深圳)有限公司 | 内容播放的方法及内容播放服务器 |
CN103186539A (zh) * | 2011-12-27 | 2013-07-03 | 阿里巴巴集团控股有限公司 | 一种确定用户群体、信息查询及推荐的方法及*** |
CN103501470A (zh) * | 2013-10-17 | 2014-01-08 | 珠海迈科电子科技有限公司 | 网络数据筛选方法及装置 |
CN103605773A (zh) * | 2013-11-27 | 2014-02-26 | 乐视网信息技术(北京)股份有限公司 | 一种多媒体文件搜索方法及装置 |
CN103699661A (zh) * | 2013-12-26 | 2014-04-02 | 乐视网信息技术(北京)股份有限公司 | 视频资源数据的获取方法及其*** |
CN104980770A (zh) * | 2014-04-09 | 2015-10-14 | 杭州迪普科技有限公司 | 一种视频数据内容下载方法以及装置 |
CN105025369A (zh) * | 2015-06-30 | 2015-11-04 | 北京奇艺世纪科技有限公司 | 一种确定组合频道中推荐资源的方法及装置 |
CN105893559A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种数据推送方法及装置 |
CN106453348A (zh) * | 2016-10-31 | 2017-02-22 | 南京邮电大学 | 社交网络中基于用户兴趣的登录认证方法 |
CN108399223A (zh) * | 2018-02-12 | 2018-08-14 | 北京奇艺世纪科技有限公司 | 一种数据获取方法、装置及电子设备 |
CN109951739A (zh) * | 2019-03-27 | 2019-06-28 | 北京市博汇科技股份有限公司 | 视频业务处理方法、装置及电子设备 |
CN113297450A (zh) * | 2021-05-24 | 2021-08-24 | 华北科技学院(中国煤矿安全技术培训中心) | 基于模糊综合评价法的爬虫方法、***、介质和电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021852A (zh) * | 2006-10-10 | 2007-08-22 | 鲍东山 | 基于内容的视频搜索调度*** |
-
2010
- 2010-05-28 CN CN 201010186145 patent/CN101833587A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021852A (zh) * | 2006-10-10 | 2007-08-22 | 鲍东山 | 基于内容的视频搜索调度*** |
Non-Patent Citations (4)
Title |
---|
《中国优秀硕士学位论文全文数据库》 20080531 任严 基于网络视频业务的搜索引擎的设计与实现 第15页,33-43页 1-8 , 2 * |
《中国科技信息》 20070630 任严等 基于网络视频的搜索引擎的设计与实现 第120-121页 1-8 , 第11期 2 * |
《信息技术》 20060731 刘春祥等 基于MVC模式的网络视频检索***设计与实现 第7-10,第37页 1-8 , 第7期 2 * |
《计算机工程与应用》 20050331 费洪晓等 基于词频统计的中文分词的研究 第67-68,100页 1-8 , 第7期 2 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102625158A (zh) * | 2011-08-10 | 2012-08-01 | 苏州闻道网络科技有限公司 | 视频管理*** |
CN103179441A (zh) * | 2011-12-21 | 2013-06-26 | 腾讯科技(深圳)有限公司 | 内容播放的方法及内容播放服务器 |
US9400831B2 (en) | 2011-12-27 | 2016-07-26 | Alibaba Group Holding Limited | Providing information recommendations based on determined user groups |
CN103186539A (zh) * | 2011-12-27 | 2013-07-03 | 阿里巴巴集团控股有限公司 | 一种确定用户群体、信息查询及推荐的方法及*** |
CN103186539B (zh) * | 2011-12-27 | 2016-07-27 | 阿里巴巴集团控股有限公司 | 一种确定用户群体、信息查询及推荐的方法及*** |
CN102630049A (zh) * | 2011-12-31 | 2012-08-08 | 上海聚力传媒技术有限公司 | 一种用于确定用户关于在播视频的兴趣度的方法和设备 |
CN102630049B (zh) * | 2011-12-31 | 2014-12-10 | 上海聚力传媒技术有限公司 | 一种用于确定用户关于在播视频的兴趣度的方法和设备 |
CN102760058A (zh) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | 面向大规模协作开发的海量软件项目共享方法 |
CN102760058B (zh) * | 2012-04-05 | 2015-03-11 | 中国人民解放军国防科学技术大学 | 面向大规模协作开发的海量软件项目共享方法 |
CN103020212A (zh) * | 2012-12-07 | 2013-04-03 | 合一网络技术(北京)有限公司 | 一种基于用户查询日志实时发现热点视频的方法和装置 |
CN106909638A (zh) * | 2012-12-07 | 2017-06-30 | 合网络技术(北京)有限公司 | 一种基于用户查询日志实时发现热点视频的方法和装置 |
CN103020212B (zh) * | 2012-12-07 | 2017-05-10 | 合一网络技术(北京)有限公司 | 一种基于用户查询日志实时发现热点视频的方法和装置 |
CN103501470A (zh) * | 2013-10-17 | 2014-01-08 | 珠海迈科电子科技有限公司 | 网络数据筛选方法及装置 |
CN103605773A (zh) * | 2013-11-27 | 2014-02-26 | 乐视网信息技术(北京)股份有限公司 | 一种多媒体文件搜索方法及装置 |
CN103699661A (zh) * | 2013-12-26 | 2014-04-02 | 乐视网信息技术(北京)股份有限公司 | 视频资源数据的获取方法及其*** |
CN104980770A (zh) * | 2014-04-09 | 2015-10-14 | 杭州迪普科技有限公司 | 一种视频数据内容下载方法以及装置 |
CN105025369A (zh) * | 2015-06-30 | 2015-11-04 | 北京奇艺世纪科技有限公司 | 一种确定组合频道中推荐资源的方法及装置 |
CN105025369B (zh) * | 2015-06-30 | 2018-07-17 | 北京奇艺世纪科技有限公司 | 一种确定组合频道中推荐资源的方法及装置 |
CN105893559A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种数据推送方法及装置 |
CN106453348A (zh) * | 2016-10-31 | 2017-02-22 | 南京邮电大学 | 社交网络中基于用户兴趣的登录认证方法 |
CN106453348B (zh) * | 2016-10-31 | 2019-11-15 | 南京邮电大学 | 社交网络中基于用户兴趣的登录认证方法 |
CN108399223A (zh) * | 2018-02-12 | 2018-08-14 | 北京奇艺世纪科技有限公司 | 一种数据获取方法、装置及电子设备 |
CN109951739A (zh) * | 2019-03-27 | 2019-06-28 | 北京市博汇科技股份有限公司 | 视频业务处理方法、装置及电子设备 |
CN109951739B (zh) * | 2019-03-27 | 2021-06-08 | 北京市博汇科技股份有限公司 | 视频业务处理方法、装置及电子设备 |
CN113297450A (zh) * | 2021-05-24 | 2021-08-24 | 华北科技学院(中国煤矿安全技术培训中心) | 基于模糊综合评价法的爬虫方法、***、介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101833587A (zh) | 网络视频搜索*** | |
CN105022827B (zh) | 一种面向领域主题的Web新闻动态聚合方法 | |
CN110597981B (zh) | 一种采用多策略自动生成摘要的网络新闻概要*** | |
US8626768B2 (en) | Automated discovery aggregation and organization of subject area discussions | |
US9262532B2 (en) | Ranking entity facets using user-click feedback | |
US8065619B2 (en) | Customized today module | |
Yu et al. | Summary of web crawler technology research | |
US20120011129A1 (en) | Faceted exploration of media collections | |
CN106096056A (zh) | 一种基于分布式的舆情数据实时采集方法和*** | |
CN106339394B (zh) | 一种信息处理方法及装置 | |
US8712999B2 (en) | Systems and methods for online search recirculation and query categorization | |
CN102708174A (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN103294815A (zh) | 基于关键字分类并有多种呈现方式的搜索引擎装置与方法 | |
CN104090923A (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN115757689A (zh) | 一种信息查询***、方法及设备 | |
Cao et al. | Web video topics discovery and structuralization with social network | |
CN116226494B (zh) | 一种用于信息搜索的爬虫***及方法 | |
CN105989176A (zh) | 数据处理方法及装置 | |
Benedusi et al. | An associative engines based approach supporting collaborative analytics in the internet of cultural things | |
WO2015000083A1 (en) | System and method for ranking online content | |
Wang et al. | Adaptive identification of hashtags for real-time event data collection | |
CN114065054A (zh) | 一种推送信息的方法和装置 | |
Alzua-Sorzabal et al. | Using MWD: A business intelligence system for tourism destination web | |
CN111970327A (zh) | 一种基于大数据处理的新闻传播方法及*** | |
CN102890715A (zh) | 一种特定领域信息自动化组织的装置及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20100915 |