CN111008288A - 基于媒资内容标注来实现媒资检索和显示的方法 - Google Patents

基于媒资内容标注来实现媒资检索和显示的方法 Download PDF

Info

Publication number
CN111008288A
CN111008288A CN201911356802.5A CN201911356802A CN111008288A CN 111008288 A CN111008288 A CN 111008288A CN 201911356802 A CN201911356802 A CN 201911356802A CN 111008288 A CN111008288 A CN 111008288A
Authority
CN
China
Prior art keywords
assets
media asset
media
retrieval
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911356802.5A
Other languages
English (en)
Inventor
孟北北
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN201911356802.5A priority Critical patent/CN111008288A/zh
Publication of CN111008288A publication Critical patent/CN111008288A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于媒资内容标注来实现媒资检索和显示的方法,包括以下步骤:对媒资进行入库;媒资同步到标注平台,针对不同类型的媒资进行打标;完成打标后通过MQ回流到媒资库,媒资库将标签数据同步到OTS数据库;标签数据增量同步到ES数据库以支持用户检索;通过ES数据库的标签检索媒资。本发明的有益之处在于,兼容多种类的媒资标签存储,同时使媒资检索和定位片段更加方便。

Description

基于媒资内容标注来实现媒资检索和显示的方法
技术领域
本发明涉及一种基于媒资内容标注来实现媒资检索和显示的方法。
背景技术
当前网络媒体已经成为人们了解信息的重要途径,传统的媒资平台比较单一,因其自身在标签、管理机制、检索机制等方面存在的不足,一定程度上影响了信息组织的精准度,不利于用户的实际操作使用,使得新闻生产效率较低。因此媒资标注技术也得到了重视和发展。
传统的方案不能很好的定位自己想要的媒资数据,使用不便;成本高,没有标签的媒资检索慢,大大的增加了人工成本。
发明内容
为解决现有技术的不足,本发明提供了一种基于媒资内容标注来实现媒资检索和显示的方法,可以兼容多种类的媒资标签存储,同时使媒资检索和定位片段更有效更方便。
一种基于媒资内容标注来实现媒资检索和显示的方法,包括以下步骤:
对媒资进行入库;
媒资同步到标注平台,针对不同类型的媒资进行打标;
完成打标后通过MQ回流到媒资库,媒资库将标签数据同步到OTS数据库;
标签数据增量同步到ES数据库以支持用户检索;
通过ES数据库的标签检索媒资。
进一步地,媒资进入OTS数据库时通过UUID生成媒资ID,通过媒资ID关联标签。
进一步地,OTS数据库中的标签包括人工标注的标签和人工智能算法识别出的标签。
进一步地,人工智能算法识别出的标签包括人脸、语音和文本。
进一步地,OTS数据库设有存储标签的信息的事件模型,可以兼容多种标签形式的入库。
进一步地,对于图片媒资,通过查看图片内容的方式进行打标。
进一步地,对于音频媒资,通过听音频内容的方式,定位时间点,进行打标;
对于视频媒资,通过查看视频内容的方式,定位时间点,进行打标。
进一步地,图片媒资设全局标签;对音频媒资和视频媒资可以设带时间点的标签也可以设全局标签。
进一步地,对不同类型的标签在同步到ES数据库时,对存储的字段名称进行同构处理。
进一步地,将同一媒资的多个条记录整合成一个数组list,存储在ES数据库建立的索引列中。
本发明的有益之处在于兼容多种类的媒资标签存储,同时使媒资检索和定位片段更有效更方便。
可以满足用户通过人工打标和算法标签对多种媒资进行精准的检索和管理,支持媒资类型种类很多包括图片、音频、视频、文本图片音频视频混合媒资的标注模式,利用nosql的event模型,可随时增加标签类型通过ES检索。
附图说明
图1是一种基于媒资内容标注来实现媒资检索和显示的方法的流程图,示出了媒资打标流程到通过标签对媒资检索的流程;
图2是图1中基于媒资内容标注来实现媒资检索和显示的方法的OTS数据库存储结构的示意图;
图3是图1中基于媒资内容标注来实现媒资检索和显示的方法的ES数据库存储结构的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1至图3所示,一种基于媒资内容标注来实现媒资检索和显示的方法,包括以下步骤:
对媒资进行入库;
媒资同步到标注平台,针对不同类型的媒资进行打标;
完成打标后通过MQ回流到媒资库,媒资库将标签数据同步到OTS数据库;
标签数据增量同步到ES数据库以支持用户检索;
用户可通过ES数据库的标签检索媒资。
具体而言,对于图片媒资,通过查看图片内容的方式进行打标。对于音频媒资,通过听音频内容的方式,定位时间点,进行打标;对于视频媒资,通过查看视频内容的方式,定位时间点,进行打标。进一步地,图片媒资设全局标签;对音频媒资和视频媒资可以设带时间点的标签也可以设全局标签。
阿里OTS存储结构
OTS具有存储标签的信息的事件(event)模型,可以兼容多种标签形式的入库。只需新建一种event,媒资id是一个媒资进入的时候通过UUID生成的,通过媒资id关联标签属性。
OTS数据库中的标签包括人工标注的标签和人工智能算法识别出的标签。具体而言,标签表里不止有人工标注的标签,同时有人工智能算法识别出来的人脸、语音、文本等扩展标签一同存在,大大增加了媒资的检索和定位效率。
阿里云OTS数据库服务是一个面向列式存储的数据库服务,该服务支持动态增加列信息,如果媒资新增了标签的event,需要新增列只需要直接***数据,OTS就能自动生成列信息。
ES存储结构
媒资标签数据存储到OTS之后,会实时增量同步一份到ES中,来支持用户的检索。
不同类型的媒资标签数据不同,为了支持用户混合检索所有类型的媒资,需要对所有类型的标签在同步到ES数据库上的时候,存储的字段名称做同构处理,比如:视频媒资的标题对应的索引名称和其他类型媒资标题对应的索引名称相同。
对于媒资标签表的信息需要做一些数据融合,可能一个视频会有多条记录,这些记录会整合成一个数组List,存储在ES建立的一个索引列中,索引名称叫tags。目的是为了将合并的结果做统一的分词处理,方便用户对标签数据信息的检索。
当完成了上述数据的转换,将OTS中的数据同步到ES之后,ES就能够支撑用户对于标签的检索需求。
对于数据量在千万级别以下可以使用mysql。对于媒资数据基本存储,除了阿里的OTS存储数据库以外,也可以使用HBase、等nosql数据库来替换。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,包括以下步骤:
对媒资进行入库;
媒资同步到标注平台,针对不同类型的媒资进行打标;
完成打标后通过MQ回流到媒资库,媒资库将标签数据同步到OTS数据库;
标签数据增量同步到ES数据库以支持用户检索;
通过ES数据库的标签检索媒资。
2.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,
媒资进入OTS数据库时通过UUID生成媒资ID,通过媒资ID关联标签。
3.根据权利要求2所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,
OTS数据库中的标签包括人工标注的标签和人工智能算法识别出的标签。
4.根据权利要求3所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,人工智能算法识别出的标签包括人脸、语音和文本。
5.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,
OTS数据库设有存储标签的信息的事件模型,可以兼容多种标签形式的入库。
6.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,对于图片媒资,通过查看图片内容的方式进行打标。
7.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,
对于音频媒资,通过听音频内容的方式,定位时间点,进行打标;
对于视频媒资,通过查看视频内容的方式,定位时间点,进行打标。
8.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,图片媒资设全局标签;对音频媒资和视频媒资可以设带时间点的标签也可以设全局标签。
9.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,对不同类型的标签在同步到ES数据库时,对存储的字段名称进行同构处理。
10.根据权利要求9所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,
将同一媒资的多个条记录整合成一个数组list,存储在ES数据库建立的索引列中。
CN201911356802.5A 2019-12-25 2019-12-25 基于媒资内容标注来实现媒资检索和显示的方法 Pending CN111008288A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911356802.5A CN111008288A (zh) 2019-12-25 2019-12-25 基于媒资内容标注来实现媒资检索和显示的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911356802.5A CN111008288A (zh) 2019-12-25 2019-12-25 基于媒资内容标注来实现媒资检索和显示的方法

Publications (1)

Publication Number Publication Date
CN111008288A true CN111008288A (zh) 2020-04-14

Family

ID=70118497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911356802.5A Pending CN111008288A (zh) 2019-12-25 2019-12-25 基于媒资内容标注来实现媒资检索和显示的方法

Country Status (1)

Country Link
CN (1) CN111008288A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446051A (zh) * 2016-08-31 2017-02-22 北京新奥特云视科技有限公司 Eagle媒资深度搜索方法
CN110427498A (zh) * 2019-07-24 2019-11-08 新华智云科技有限公司 媒体信息的存储方法、装置、存储设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446051A (zh) * 2016-08-31 2017-02-22 北京新奥特云视科技有限公司 Eagle媒资深度搜索方法
CN110427498A (zh) * 2019-07-24 2019-11-08 新华智云科技有限公司 媒体信息的存储方法、装置、存储设备及存储介质

Similar Documents

Publication Publication Date Title
CN108052577B (zh) 一种通用文本内容挖掘方法、装置、服务器及存储介质
US9645787B1 (en) Tag-based electronic media playlist processing
CN105446946B (zh) 版式文档的重排方法、***及电子阅读终端
CN102207948B (zh) 一种事件陈述句素材库的生成方法
CN110866383B (zh) 一种交互式电子数据清单生成方法及***
CN102193906A (zh) Word格式试卷自动导入数据库***的方法
CN108255915B (zh) 一种文件管理方法、装置及机器可读存储介质
CN109299324B (zh) 一种标签式视频文件的检索方法
US8892501B2 (en) Capturing OLAP analysis thread as refreshable business intelligence data
CN111090656B (zh) 一种动态构建对象画像的方法及***
US20150278248A1 (en) Personal Information Management Service System
CN102314412A (zh) 记录语境信息以及追溯生词语境的方法和***
CN106021393A (zh) 面向移动设备的电网设备标准信息检索方法和***
US20180357594A1 (en) Computer Vision and Digital Image Scanning based Inventory Management System
CN104765849A (zh) 一种获取拷贝数据来源信息的方法和***
CN110879799B (zh) 标注技术元数据的方法和装置
CN110888878A (zh) 一种面向业务的主数据管理方法及***
CN104349173A (zh) 视频复读方法及装置
CN110929120B (zh) 管理技术元数据的方法和装置
CN105279208A (zh) 一种数据标示方法和管理***
CN111008288A (zh) 基于媒资内容标注来实现媒资检索和显示的方法
CN105740406A (zh) 一种信息标引和检索方法
CN110134817A (zh) 一种录音文件的存储方法、搜索方法及相关装置
Theofanous et al. Cultural heritage content re-use: An aggregators's point of view
CN103186583B (zh) 一种基于移动终端的信息记录和检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200414