CN111008288A - 基于媒资内容标注来实现媒资检索和显示的方法 - Google Patents
基于媒资内容标注来实现媒资检索和显示的方法 Download PDFInfo
- Publication number
- CN111008288A CN111008288A CN201911356802.5A CN201911356802A CN111008288A CN 111008288 A CN111008288 A CN 111008288A CN 201911356802 A CN201911356802 A CN 201911356802A CN 111008288 A CN111008288 A CN 111008288A
- Authority
- CN
- China
- Prior art keywords
- assets
- media asset
- media
- retrieval
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000001360 synchronised effect Effects 0.000 claims abstract description 8
- 238000013473 artificial intelligence Methods 0.000 claims description 5
- 239000012634 fragment Substances 0.000 abstract description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于媒资内容标注来实现媒资检索和显示的方法,包括以下步骤:对媒资进行入库;媒资同步到标注平台,针对不同类型的媒资进行打标;完成打标后通过MQ回流到媒资库,媒资库将标签数据同步到OTS数据库;标签数据增量同步到ES数据库以支持用户检索;通过ES数据库的标签检索媒资。本发明的有益之处在于,兼容多种类的媒资标签存储,同时使媒资检索和定位片段更加方便。
Description
技术领域
本发明涉及一种基于媒资内容标注来实现媒资检索和显示的方法。
背景技术
当前网络媒体已经成为人们了解信息的重要途径,传统的媒资平台比较单一,因其自身在标签、管理机制、检索机制等方面存在的不足,一定程度上影响了信息组织的精准度,不利于用户的实际操作使用,使得新闻生产效率较低。因此媒资标注技术也得到了重视和发展。
传统的方案不能很好的定位自己想要的媒资数据,使用不便;成本高,没有标签的媒资检索慢,大大的增加了人工成本。
发明内容
为解决现有技术的不足,本发明提供了一种基于媒资内容标注来实现媒资检索和显示的方法,可以兼容多种类的媒资标签存储,同时使媒资检索和定位片段更有效更方便。
一种基于媒资内容标注来实现媒资检索和显示的方法,包括以下步骤:
对媒资进行入库;
媒资同步到标注平台,针对不同类型的媒资进行打标;
完成打标后通过MQ回流到媒资库,媒资库将标签数据同步到OTS数据库;
标签数据增量同步到ES数据库以支持用户检索;
通过ES数据库的标签检索媒资。
进一步地,媒资进入OTS数据库时通过UUID生成媒资ID,通过媒资ID关联标签。
进一步地,OTS数据库中的标签包括人工标注的标签和人工智能算法识别出的标签。
进一步地,人工智能算法识别出的标签包括人脸、语音和文本。
进一步地,OTS数据库设有存储标签的信息的事件模型,可以兼容多种标签形式的入库。
进一步地,对于图片媒资,通过查看图片内容的方式进行打标。
进一步地,对于音频媒资,通过听音频内容的方式,定位时间点,进行打标;
对于视频媒资,通过查看视频内容的方式,定位时间点,进行打标。
进一步地,图片媒资设全局标签;对音频媒资和视频媒资可以设带时间点的标签也可以设全局标签。
进一步地,对不同类型的标签在同步到ES数据库时,对存储的字段名称进行同构处理。
进一步地,将同一媒资的多个条记录整合成一个数组list,存储在ES数据库建立的索引列中。
本发明的有益之处在于兼容多种类的媒资标签存储,同时使媒资检索和定位片段更有效更方便。
可以满足用户通过人工打标和算法标签对多种媒资进行精准的检索和管理,支持媒资类型种类很多包括图片、音频、视频、文本图片音频视频混合媒资的标注模式,利用nosql的event模型,可随时增加标签类型通过ES检索。
附图说明
图1是一种基于媒资内容标注来实现媒资检索和显示的方法的流程图,示出了媒资打标流程到通过标签对媒资检索的流程;
图2是图1中基于媒资内容标注来实现媒资检索和显示的方法的OTS数据库存储结构的示意图;
图3是图1中基于媒资内容标注来实现媒资检索和显示的方法的ES数据库存储结构的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1至图3所示,一种基于媒资内容标注来实现媒资检索和显示的方法,包括以下步骤:
对媒资进行入库;
媒资同步到标注平台,针对不同类型的媒资进行打标;
完成打标后通过MQ回流到媒资库,媒资库将标签数据同步到OTS数据库;
标签数据增量同步到ES数据库以支持用户检索;
用户可通过ES数据库的标签检索媒资。
具体而言,对于图片媒资,通过查看图片内容的方式进行打标。对于音频媒资,通过听音频内容的方式,定位时间点,进行打标;对于视频媒资,通过查看视频内容的方式,定位时间点,进行打标。进一步地,图片媒资设全局标签;对音频媒资和视频媒资可以设带时间点的标签也可以设全局标签。
阿里OTS存储结构
OTS具有存储标签的信息的事件(event)模型,可以兼容多种标签形式的入库。只需新建一种event,媒资id是一个媒资进入的时候通过UUID生成的,通过媒资id关联标签属性。
OTS数据库中的标签包括人工标注的标签和人工智能算法识别出的标签。具体而言,标签表里不止有人工标注的标签,同时有人工智能算法识别出来的人脸、语音、文本等扩展标签一同存在,大大增加了媒资的检索和定位效率。
阿里云OTS数据库服务是一个面向列式存储的数据库服务,该服务支持动态增加列信息,如果媒资新增了标签的event,需要新增列只需要直接***数据,OTS就能自动生成列信息。
ES存储结构
媒资标签数据存储到OTS之后,会实时增量同步一份到ES中,来支持用户的检索。
不同类型的媒资标签数据不同,为了支持用户混合检索所有类型的媒资,需要对所有类型的标签在同步到ES数据库上的时候,存储的字段名称做同构处理,比如:视频媒资的标题对应的索引名称和其他类型媒资标题对应的索引名称相同。
对于媒资标签表的信息需要做一些数据融合,可能一个视频会有多条记录,这些记录会整合成一个数组List,存储在ES建立的一个索引列中,索引名称叫tags。目的是为了将合并的结果做统一的分词处理,方便用户对标签数据信息的检索。
当完成了上述数据的转换,将OTS中的数据同步到ES之后,ES就能够支撑用户对于标签的检索需求。
对于数据量在千万级别以下可以使用mysql。对于媒资数据基本存储,除了阿里的OTS存储数据库以外,也可以使用HBase、等nosql数据库来替换。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,包括以下步骤:
对媒资进行入库;
媒资同步到标注平台,针对不同类型的媒资进行打标;
完成打标后通过MQ回流到媒资库,媒资库将标签数据同步到OTS数据库;
标签数据增量同步到ES数据库以支持用户检索;
通过ES数据库的标签检索媒资。
2.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,
媒资进入OTS数据库时通过UUID生成媒资ID,通过媒资ID关联标签。
3.根据权利要求2所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,
OTS数据库中的标签包括人工标注的标签和人工智能算法识别出的标签。
4.根据权利要求3所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,人工智能算法识别出的标签包括人脸、语音和文本。
5.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,
OTS数据库设有存储标签的信息的事件模型,可以兼容多种标签形式的入库。
6.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,对于图片媒资,通过查看图片内容的方式进行打标。
7.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,
对于音频媒资,通过听音频内容的方式,定位时间点,进行打标;
对于视频媒资,通过查看视频内容的方式,定位时间点,进行打标。
8.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,图片媒资设全局标签;对音频媒资和视频媒资可以设带时间点的标签也可以设全局标签。
9.根据权利要求1所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,对不同类型的标签在同步到ES数据库时,对存储的字段名称进行同构处理。
10.根据权利要求9所述的基于媒资内容标注来实现媒资检索和显示的方法,其特征在于,
将同一媒资的多个条记录整合成一个数组list,存储在ES数据库建立的索引列中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356802.5A CN111008288A (zh) | 2019-12-25 | 2019-12-25 | 基于媒资内容标注来实现媒资检索和显示的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356802.5A CN111008288A (zh) | 2019-12-25 | 2019-12-25 | 基于媒资内容标注来实现媒资检索和显示的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111008288A true CN111008288A (zh) | 2020-04-14 |
Family
ID=70118497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911356802.5A Pending CN111008288A (zh) | 2019-12-25 | 2019-12-25 | 基于媒资内容标注来实现媒资检索和显示的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111008288A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446051A (zh) * | 2016-08-31 | 2017-02-22 | 北京新奥特云视科技有限公司 | Eagle媒资深度搜索方法 |
CN110427498A (zh) * | 2019-07-24 | 2019-11-08 | 新华智云科技有限公司 | 媒体信息的存储方法、装置、存储设备及存储介质 |
-
2019
- 2019-12-25 CN CN201911356802.5A patent/CN111008288A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446051A (zh) * | 2016-08-31 | 2017-02-22 | 北京新奥特云视科技有限公司 | Eagle媒资深度搜索方法 |
CN110427498A (zh) * | 2019-07-24 | 2019-11-08 | 新华智云科技有限公司 | 媒体信息的存储方法、装置、存储设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052577B (zh) | 一种通用文本内容挖掘方法、装置、服务器及存储介质 | |
US9645787B1 (en) | Tag-based electronic media playlist processing | |
CN105446946B (zh) | 版式文档的重排方法、***及电子阅读终端 | |
CN102207948B (zh) | 一种事件陈述句素材库的生成方法 | |
CN110866383B (zh) | 一种交互式电子数据清单生成方法及*** | |
CN102193906A (zh) | Word格式试卷自动导入数据库***的方法 | |
CN108255915B (zh) | 一种文件管理方法、装置及机器可读存储介质 | |
CN109299324B (zh) | 一种标签式视频文件的检索方法 | |
US8892501B2 (en) | Capturing OLAP analysis thread as refreshable business intelligence data | |
CN111090656B (zh) | 一种动态构建对象画像的方法及*** | |
US20150278248A1 (en) | Personal Information Management Service System | |
CN102314412A (zh) | 记录语境信息以及追溯生词语境的方法和*** | |
CN106021393A (zh) | 面向移动设备的电网设备标准信息检索方法和*** | |
US20180357594A1 (en) | Computer Vision and Digital Image Scanning based Inventory Management System | |
CN104765849A (zh) | 一种获取拷贝数据来源信息的方法和*** | |
CN110879799B (zh) | 标注技术元数据的方法和装置 | |
CN110888878A (zh) | 一种面向业务的主数据管理方法及*** | |
CN104349173A (zh) | 视频复读方法及装置 | |
CN110929120B (zh) | 管理技术元数据的方法和装置 | |
CN105279208A (zh) | 一种数据标示方法和管理*** | |
CN111008288A (zh) | 基于媒资内容标注来实现媒资检索和显示的方法 | |
CN105740406A (zh) | 一种信息标引和检索方法 | |
CN110134817A (zh) | 一种录音文件的存储方法、搜索方法及相关装置 | |
Theofanous et al. | Cultural heritage content re-use: An aggregators's point of view | |
CN103186583B (zh) | 一种基于移动终端的信息记录和检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200414 |