CN109982105A - 用于广播平台的内容检索***及方法 - Google Patents

用于广播平台的内容检索***及方法 Download PDF

Info

Publication number
CN109982105A
CN109982105A CN201711440357.1A CN201711440357A CN109982105A CN 109982105 A CN109982105 A CN 109982105A CN 201711440357 A CN201711440357 A CN 201711440357A CN 109982105 A CN109982105 A CN 109982105A
Authority
CN
China
Prior art keywords
content
information
metadata
server
distributed storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711440357.1A
Other languages
English (en)
Inventor
许颖浩
袁政
陆伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WENGUANG INTERDYANMIC TV CO Ltd SHANGHAI
Original Assignee
WENGUANG INTERDYANMIC TV CO Ltd SHANGHAI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WENGUANG INTERDYANMIC TV CO Ltd SHANGHAI filed Critical WENGUANG INTERDYANMIC TV CO Ltd SHANGHAI
Priority to CN201711440357.1A priority Critical patent/CN109982105A/zh
Publication of CN109982105A publication Critical patent/CN109982105A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/254Management at additional data server, e.g. shopping server, rights management server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8543Content authoring using a description language, e.g. Multimedia and Hypermedia information coding Expert Group [MHEG], eXtensible Markup Language [XML]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于广播平台的内容检索***及方法,该***包括全文检索服务器、web服务器、数据库、分布式数据存储层。数据库分别连接全文检索服务器和分布式数据存储层,且全文检索服务器和分布式数据存储层均通过web服务器访问。分布式数据存储层包括消息层元数据和内容层元数据,内容层元数据进一步包括内容对象基本信息、内容对象特征信息、内容实体信息。数据库解析内容层元数据的XML信息,并进行存储。数据库将3D内容元数据描述文件提交给全文检索服务***,针对3D元数据的全文建立索引。本发明能够使得检索***适应立体电视的特点,从而提升检索效率。

Description

用于广播平台的内容检索***及方法
技术领域
本发明涉及广播平台***及方法,更具体地说,涉及一种用于广播平台的内容检索***及方法。
背景技术
立体电视与立体电影最大的差别在于立体节目的制作成本及播出时间要求的不同。立体电影更注重节目的内容、立体场面等方面,一部立体电影的制作投入成本大、加工周期长,均是大成本、大投入,而节目时长为120分钟左右。相对而言,电视这种媒体形式需要连续进行不同节目内容的播出,电视相对于电影不可能进行高成本、大投入节目制作,而且电视根据节目内容要求会有实况直播的形式。同样,对于立体电视节目来说,也不可能进行高成本、大投入节目制作,立体电视直播是一种有着更迫切需要的业务形态,在此条件下如何保证立体视觉效果、如何保持立体电视终端与普通电视的兼容性、如何基于现有的网络电视实现网络立体电视业务,这些问题是在3D互动电视***体系架构研究中必需回答并解决的问题。
而对于播放立体电视的广播平台而言,为了适应立体电视的存储、调用和播放,广播平台需要建立一套适用于立体电视的内容检索***,以便于更好地实现立体电视内容的快速检索。然而,现阶段的广播平台检索***均建立在普通电视的基础上。如果将这样的检索***直接应用在立体电视内容上,则体现不出其区别所在,而立体电视由于内容文件较大,使用现有的检索***无疑会延长检索时间,导致检索效率不高。
发明内容
针对现有技术中存在的上述问题,本发明的目的是提供一种用于广播平台的内容检索***及方法
为实现上述目的,本发明采用如下技术方案:
一种用于广播平台的内容检索***,包括全文检索服务器、web服务器、数据库、分布式数据存储层。数据库分别连接全文检索服务器和分布式数据存储层,且全文检索服务器和分布式数据存储层均通过web服务器访问。分布式数据存储层包括消息层元数据和内容层元数据,内容层元数据进一步包括内容对象基本信息、内容对象特征信息、内容实体信息。数据库解析内容层元数据的XML信息,并进行存储。数据库将3D内容元数据描述文件提交给全文检索服务***,针对3D元数据的全文建立索引。
进一步地,内容对象特征信息包括音频特征信息、视频特征信息和流媒体特征信息。
进一步地,内容实体信息包括基本信息、音频信息、视频信息、图片信息和流媒体信息。
进一步地,全文检索服务器包括主索引服务器和增量索引服务器,增量索引服务器接收数据更新,并将数据更新同步到分布式数据存储层上。
为实现上述目的,本发明还采用如下技术方案:
一种用于广播平台的内容检索方法,包括:构建全文检索服务器、web服务器、数据库、分布式数据存储层,数据库分别连接全文检索服务器和分布式数据存储层,且全文检索服务器和分布式数据存储层均通过web服务器访问;构建分布式数据存储层,包括消息层元数据和内容层元数据,内容层元数据进一步包括内容对象基本信息、内容对象特征信息、内容实体信息;解析内容层元数据的XML信息,并存储在数据库中;将3D内容元数据描述文件提交给全文检索服务***,针对3D元数据的全文建立索引。
进一步地,内容对象特征信息包括音频特征信息、视频特征信息和流媒体特征信息。
进一步地,内容实体信息包括基本信息、音频信息、视频信息、图片信息和流媒体信息。
进一步地,在全文检索服务器中构建主索引服务器和增量索引服务器,将数据更新到增量索引服务器上,并将数据更新同步到分布式数据存储层上。
在上述技术方案中,本发明的用于广播平台的内容检索***及方法能够使得检索***适应立体电视的特点,从而提升检索效率。
附图说明
图1是元数据层次结构图
图2是检索***的架构图;
图3是检索***的方法流程图。
具体实施方式
下面结合附图和实施例进一步说明本发明的技术方案。
参照图1,本发明首先公开一种用于广播平台的内容检索***,其适用的对象是3D电视(立体电视)节目内容的检索。本发明的思路是充分利用3D内容元数据的特殊属性(视频的颜色、空间布局、动作、画面的景深特征),实现内容的编目管理和流程配置管理,同时利用3D内容元素的特殊属性对3D内容进行高效的全文检索。
如图1所示,3D元数据描述为使用XML树形结构对3D内容元数据进行描述。数据采用树型结构,支持描述信息的层次化组织,通过可选节点的定义可以使元数据模型具有适应不同类型内容的能力。从支撑环境对内容元数据的总体需求出发,内容元数据分为核心集、通用可选集、分类扩展集3个部分。
核心集:任何类型的内容都必须具有的属性标签,主要包括内容的提供者、内容标识等信息。
通用可选集:与内容本身相关的信息,并对不同类型的内容具有普遍适应性的属性集合,例如内容的制造商、内容摘要(简单描述)、内容的有效期以及内容是否加密等信息,还有3D属性,如视频的颜色、空间布局、动作、画面的景深景深特征。
分类扩展集:根据不同内容各自的特点,制定与该类内容特征紧密相关的属性,并将一些基本的、必要的特定内容分类属性作为补充,例如对于电影这种类型的内容,提供包括演员、导演、主题曲、海报和影片类型等扩展属性;对于不同类型的类型,其扩展集差别较大。
3D容元数据项总体上分为消息层元数据和内容层元数据,内容层元数据包括内容对象基本信息,内容对象特性信息(音频特性信息、视频特性信息、流媒体特性信息)、内容实体信息。层次结构和各层元数据项如图1所示。
具体来说,内容对象基本信息作为内容层元数据的第一独立子层。
内容对象特征信息作为内容层元数据的第二独立子层,其进一步包括音频特征信息、视频特征信息和流媒体特征信息。进一步地,音频特征信息包括(音频)基本信息,视频特征信息进一步包括(视频)基本信息、(视频)扩展信息、(视频)打点信息和(视频)拆条信息,流媒体特征信息进一步包括(流媒体)基本信息和节目单信息。
内容实体信息作为内容层元数据的第三独立子层,其进一步包括(内容实体)基本信息、(内容实体)音频信息、(内容实体)视频信息、(内容实体)图片信息和(内容实体)流媒体信息。
内容业务管理***首先解析内容的元数据XML信息,并存储在关系型数据库管理***中,方便操作员的查询和修改,当需要往其他***发送元数据时,再根据数据库中的信息重新生成符合要求的元数据XML文件。
将3D内容元数据描述文件提交给全文检索服务***,针对3D元数据的全文建立索引,并提供3D内容元数据的全文检索服务。
为了提高元数据的检索效率,3D内容元数据管理及检索子***的采用全文检索服务器使用(Sphinx)作为搜索引擎,采用Tokyo Tyrant完成搜索引擎数据存储,3D内容元数据管理及检索子***实现架构如图2所示,本发明的用于广播平台的内容检索***,其主要架构包括全文检索服务器、web服务器、数据库、分布式数据存储层。
参照图2,数据库分别连接全文检索服务器和分布式数据存储层,且全文检索服务器和分布式数据存储层均通过web服务器访问。分布式数据存储层包括消息层元数据和内容层元数据,内容层元数据进一步包括内容对象基本信息、内容对象特征信息、内容实体信息。数据库解析内容层元数据的XML信息,并进行存储。数据库将3D内容元数据描述文件提交给全文检索服务***,针对3D元数据的全文建立索引。
具体来说,全文检索服务器使用Sphinx,Sphinx是一个分布式的索引服务器,它由主索引和增量索引组成,数据首先增加到增量索引服务器上,再将增量索引服务器上数据定期更新到主要索引服务器上,Sphinx提供的单一索引最大可包含1亿条记录,在一千条记录情况下的查询速度为毫秒级,Shpinx的创建索引的速度为:创建100万条记录的索引时间为3~4分钟,包含最新10万条记录的增量索引,重建一次只需几十秒。
Sphinx支持一元分词。一元分词位于索引更新模块。Sphinx索引引擎对于CJK(中日韩)语言(必须是UTF-8编码)支持一元切分,假设【3D电影阿凡达】这段文字,Sphinx会将其切成【3D电影阿凡达】,然后对每个字建立反向索引。如果用这句话中包含的字组成一个不存在的词语,例如【影阿】,也会被搜索到,所以搜索时,需要加引号,例如搜索【"阿凡达"】,就能完全匹配连在一起的四个字,不连续的【"影阿"】就不会被搜索到。采用位于搜索查询模块的中文分词来处理。Sphinx还支持中文分词。中文分词位于搜索查询模块。搜索“3D电影阿凡达”、“3D电影饥饿游戏”,先调用独立的中文分词***,分别切分为“3D电影阿凡达”、“3D电影饥饿游戏”,这时候,再给以空格分隔的词语加上引号,去Sphinx搜索【"3D电影""阿凡达"】或【"3D电影""饥饿游戏"】,就能搜索到这条记录了。中文分词词库发生增、删、改,无需重建整个Sphinx搜索索引。
搜索引擎数据存储Tokyo Tyrant,Tokyo Tyrant是一款分布式数据缓存存储。可以和Memcached一样将Key-Value值保存到内存中加快索引速度。由于Tokyo Tyrant同时也是优秀的文件/文本型数据库Tokyo Cabinet的网络接口,很方便以后进行***扩展,采用非关系型数据库存储存储大量需要被检索的内容。单个Tokyo Tyrant服务器支持10000次请求/秒。它与Sphinx具有相同Key。
全文检索服务器包括主索引服务器和增量索引服务器,增量索引服务器接收数据更新,并将数据更新同步到分布式数据存储层上。MySql通过主表和增量表扩展存储数据。
相应的,本发明还公开了一种用于广播平台的内容检索方法,对应于上述***架构,如图3所示,其主要包括以下步骤:
S1:构建全文检索服务器、web服务器、数据库、分布式数据存储层,所述数据库分别连接全文检索服务器和分布式数据存储层,且全文检索服务器和分布式数据存储层均通过web服务器访问。
S2:构建分布式数据存储层,包括消息层元数据和内容层元数据,所述内容层元数据进一步包括内容对象基本信息、内容对象特征信息、内容实体信息。
S3:解析内容层元数据的XML信息,并存储在数据库中。
S4:将3D内容元数据描述文件提交给全文检索服务***,针对3D元数据的全文建立索引。
进一步地,检索的处理过程:
当网站数据进行更新到数据库时,数据更新到全文检索服务器的增量索引上,并将数据同步更新到搜索引擎分布式数据存储上,两者具有相同的索引ID。Sphinx负责建立数据的索引,方便全文检索。Tokyo Tyrant负责快速的响应数据。
当客户端通过Web服务器检索内容时,Web服务器首先向Sphinx发起检索请求,Sphinx检索到响应数据的索引ID列表,并返回给Web服务器;Web服务器将索引ID列表发送到Tokyo Tyrant,Tokyo Tyrant根据索引ID将数据返回给Web服务器,Web服务器将数据返回给客户端,最终客户端检索数据成功。
本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims (8)

1.一种用于广播平台的内容检索***,其特征在于,包括:
全文检索服务器、web服务器、数据库、分布式数据存储层,所述数据库分别连接全文检索服务器和分布式数据存储层,且全文检索服务器和分布式数据存储层均通过web服务器访问;
所述分布式数据存储层包括消息层元数据和内容层元数据,所述内容层元数据进一步包括内容对象基本信息、内容对象特征信息、内容实体信息;
数据库解析内容层元数据的XML信息,并进行存储;
数据库将3D内容元数据描述文件提交给全文检索服务***,针对3D元数据的全文建立索引。
2.如权利要求1所述的用于广播平台的内容检索***,其特征在于:
所述内容对象特征信息包括音频特征信息、视频特征信息和流媒体特征信息。
3.如权利要求1所述的用于广播平台的内容检索***,其特征在于:
所述内容实体信息包括基本信息、音频信息、视频信息、图片信息和流媒体信息。
4.如权利要求1所述的用于广播平台的内容检索***,其特征在于:
所述全文检索服务器包括主索引服务器和增量索引服务器,所述增量索引服务器接收数据更新,并将数据更新同步到分布式数据存储层上。
5.一种用于广播平台的内容检索方法,其特征在于,包括:
构建全文检索服务器、web服务器、数据库、分布式数据存储层,所述数据库分别连接全文检索服务器和分布式数据存储层,且全文检索服务器和分布式数据存储层均通过web服务器访问;
构建分布式数据存储层,包括消息层元数据和内容层元数据,所述内容层元数据进一步包括内容对象基本信息、内容对象特征信息、内容实体信息;
解析内容层元数据的XML信息,并存储在数据库中;
将3D内容元数据描述文件提交给全文检索服务***,针对3D元数据的全文建立索引。
6.如权利要求5所述的用于广播平台的内容检索方法,其特征在于:
所述内容对象特征信息包括音频特征信息、视频特征信息和流媒体特征信息。
7.如权利要求5所述的用于广播平台的内容检索方法,其特征在于:
所述内容实体信息包括基本信息、音频信息、视频信息、图片信息和流媒体信息。
8.如权利要求5所述的用于广播平台的内容检索方法,其特征在于:
在全文检索服务器中构建主索引服务器和增量索引服务器,将数据更新到增量索引服务器上,并将数据更新同步到分布式数据存储层上。
CN201711440357.1A 2017-12-27 2017-12-27 用于广播平台的内容检索***及方法 Pending CN109982105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711440357.1A CN109982105A (zh) 2017-12-27 2017-12-27 用于广播平台的内容检索***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711440357.1A CN109982105A (zh) 2017-12-27 2017-12-27 用于广播平台的内容检索***及方法

Publications (1)

Publication Number Publication Date
CN109982105A true CN109982105A (zh) 2019-07-05

Family

ID=67071365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711440357.1A Pending CN109982105A (zh) 2017-12-27 2017-12-27 用于广播平台的内容检索***及方法

Country Status (1)

Country Link
CN (1) CN109982105A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021855A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的视频检索***
CN101520800A (zh) * 2009-03-27 2009-09-02 华中科技大学 一种基于密文的安全全文索引和检索***
US20100257049A1 (en) * 2009-04-03 2010-10-07 Avichai Flombaum System and method for identifying and retrieving targeted advertisements or other related documents
US20110218997A1 (en) * 2010-03-08 2011-09-08 Oren Boiman Method and system for browsing, searching and sharing of personal video by a non-parametric approach
CN102831253A (zh) * 2012-09-25 2012-12-19 北京科东电力控制***有限责任公司 一种分布式全文检索***
US8948515B2 (en) * 2010-03-08 2015-02-03 Sightera Technologies Ltd. Method and system for classifying one or more images
CN107423349A (zh) * 2017-05-18 2017-12-01 福建中金在线信息科技有限公司 一种全文搜索的方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021855A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的视频检索***
CN101520800A (zh) * 2009-03-27 2009-09-02 华中科技大学 一种基于密文的安全全文索引和检索***
US20100257049A1 (en) * 2009-04-03 2010-10-07 Avichai Flombaum System and method for identifying and retrieving targeted advertisements or other related documents
US20110218997A1 (en) * 2010-03-08 2011-09-08 Oren Boiman Method and system for browsing, searching and sharing of personal video by a non-parametric approach
US8948515B2 (en) * 2010-03-08 2015-02-03 Sightera Technologies Ltd. Method and system for classifying one or more images
CN102831253A (zh) * 2012-09-25 2012-12-19 北京科东电力控制***有限责任公司 一种分布式全文检索***
CN107423349A (zh) * 2017-05-18 2017-12-01 福建中金在线信息科技有限公司 一种全文搜索的方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张宴: "亿级数据的高并发通用搜索引擎架构设计", 《张宴的博客》 *
顾国颖: "立体电视内容聚合与智能检索***的设计与思考", 《电视工程》 *

Similar Documents

Publication Publication Date Title
US20230237062A1 (en) Gathering and contributing content across diverse sources
CN110704411B (zh) 适用于艺术领域的知识图谱搭建方法及装置、电子设备
CN100595765C (zh) 基于媒体播放器的关键词内容发布方法及***
US20220337676A1 (en) Dynamic and static data of metadata objects
US8261178B2 (en) Audio data distribution system and method for generating a photo slideshow which automatically selects music
CN104516892B (zh) 关联富媒体信息的用户生成内容的发布方法、***和终端
CN101917553B (zh) 一种多媒体数据集中处理***
CN1692354B (zh) 信息管理***、信息处理设备以及信息处理方法
US20110113047A1 (en) System and method for publishing aggregated content on mobile devices
US20120179703A1 (en) Receiving apparatus
CN103092958A (zh) 一种搜索结果展示方法和装置
WO2012067464A2 (en) Apparatus and method for mashup of multimedia content
US20110119248A1 (en) Topic identification system, topic identification device, client terminal, program, topic identification method, and information processing method
CN106294695A (zh) 一种面向实时大数据搜索引擎的实现方法
WO2015096609A1 (zh) 视频资源的倒排索引文件建立方法及其***
US20100077300A1 (en) Computer Method and Apparatus Providing Social Preview in Tag Selection
CN102682036A (zh) 一种基于非编***的媒资检索方法和***
CN105760380A (zh) 数据库查询方法、装置及***
CN103744987B (zh) 基于dom树匹配的视频网站媒资聚合方法和***
CN111104583B (zh) 一种直播间推荐方法、存储介质、电子设备及***
CN103310001B (zh) 一种设置视频列表的方法和装置
CN106021393A (zh) 面向移动设备的电网设备标准信息检索方法和***
CN103514289A (zh) 一种兴趣本体库构建方法及装置
CN112307318A (zh) 一种内容发布方法、***及装置
EP3133820A1 (en) Interactive video distribution system with content similarity matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705

RJ01 Rejection of invention patent application after publication