CN100449547C - 一种媒体内容管理***及方法 - Google Patents

一种媒体内容管理***及方法 Download PDF

Info

Publication number
CN100449547C
CN100449547C CNB200610164838XA CN200610164838A CN100449547C CN 100449547 C CN100449547 C CN 100449547C CN B200610164838X A CNB200610164838X A CN B200610164838XA CN 200610164838 A CN200610164838 A CN 200610164838A CN 100449547 C CN100449547 C CN 100449547C
Authority
CN
China
Prior art keywords
information
content
media
time
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB200610164838XA
Other languages
English (en)
Other versions
CN101000617A (zh
Inventor
汪芳山
方琦
谭银燕
钟杰萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CNB200610164838XA priority Critical patent/CN100449547C/zh
Publication of CN101000617A publication Critical patent/CN101000617A/zh
Priority to PCT/CN2007/071133 priority patent/WO2008067749A1/zh
Application granted granted Critical
Publication of CN100449547C publication Critical patent/CN100449547C/zh
Priority to US12/479,066 priority patent/US8200597B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及通信技术领域中一种媒体内容管理***及方法。所述***包括:本体库,用于存储若干概念,包括媒体相关领域共同认可的词汇及所述词汇之间的关系;媒体库,用于保存具有媒体标识的媒体内容;媒体字幕库,用于保存与媒体库中的媒体内容对应的字幕信息;文本分类器,用于对字幕信息按照定义好的主题内容进行分类,得到多个具有不同主题的内容片段;所述***还包括:媒体内容标注处理单元,用于标注经文本分类器分类后具有不同主题的每一个内容片段的具体播放时间信息,得到具有具体时间信息的多个具有不同主题的内容片段。本发明通过将媒体的内容利用标准的词汇进行描述,利于对内容描述信息的统一,使得对媒体的内容检索成为可能。

Description

一种媒体内容管理***及方法
技术领域
本发明涉及通信技术领域,尤其涉及一种媒体内容管理***及方法。
背景技术
多媒体信息是人类感知自然,认识社会的主要途径。伴随着互联网络的发展和计算机应用的普及,网络上的多媒体信息呈***式增长,这就在信息的管理和采集中带来了新的问题。
在各种多媒体信息中,由于视频、音乐等多媒体信息有别于一般的文本文件,尤其体现在媒体内容信息管理方面。对于一些新闻、体育赛事等方面的媒体内容,由于不同的时间播放的内容不完全一样,因此,需要将媒体中不同时间段的内容进行统一标注和管理。以便在大量的媒体文件中检索需要的内容时可以方便快捷的找到相应的部分,甚至可以直接利用电脑进行多个媒体内容的裁减。
目前,在解决上述问题方面大多时候采用人为的手工协助,才能进行媒体内容管理,然而,这是一个耗时耗力而又效果不好的方法。
另外的一些方法,通过利用一些文本信息对媒体内容进行描述,从而对媒体内容进行管理。具体实现为:定义一个本体库(ontology),作为描述物与物之间关联的概念架构,其可由计算机所分享与理解。
然而,一个构建完善的本体库通常可被搜寻引擎、知识管理、电子商务等应用软件所运用,用以增加搜寻的效率,或增进文件处理能力。由于在一些领域内,其词汇是有限的,并且通常情况下有一些大家公认的词汇,相对而言,建立本体库的难度要小一些,因此,目前基于本体库的应用主要是一些领域本体(domain ontology)的应用,如在基因领域以及一些大的企业的内部信息管理等方面。因而在媒体内容管理的领域内如何定义一个完善的本体库是一个亟待解决的问题,目前还没有一个完善的本体库。
另外,如何将本体库与媒体内容进行关联也是建立媒体库时需要考虑的因素。目前对于媒体内容的识别和记录,大多数采用图像识别或是人工标识的方法。前者一般应用在专业领域,如在足球比赛中,捕获射门或进球的视频;而后者一般通过人工对媒体进行识别进行手工描述,然后对本体库进行关联。
由于目前图像识别的准确性不高,处理速度慢,因此,利用图像识别的技术来进行媒体内容标注应用很少,效果不理想。
而手工描述和标注的方法主观性强,而且工作量大,在实际应用中效果也很差。
因此,基于目前的状况,如何对媒体内容进行有效管理仍是一个亟待解决的问题。
发明内容
本发明提供一种媒体内容管理***及方法。
本发明是通过以下技术方案实现的:
一种媒体内容管理***,包括:
本体库,用于存储若干概念,包括媒体相关领域共同认可的词汇,及所述词汇与词汇之间相互关系;
媒体库,用于保存具有媒体标识的具体的媒体内容;
媒体字幕库,用于保存与媒体库中的媒体内容对应的对媒体附带的字幕信息;
文本分类器,用于对字幕信息按照定义好的主题内容进行分类,得到多个具有不同主题的内容片段;
所述***还包括:
媒体内容标注处理单元,用于标注经文本分类器分类后具有不同主题的每一个内容片段的具体播放时间信息,得到具有具体时间信息的多个具有不同主题的内容片段。
优选的,所述媒体内容标注处理单元进一步包括:
媒体内容提取单元,用于从媒体库中获取待标注的媒体内容的媒体标识,根据所述的媒体标识在媒体字幕库中获取对应的字幕信息,并识别所述字幕信息中的字幕内容信息,对字幕内容信息按照时间先后顺序进行标识,形成多个媒体内容时间片段;
内容分类定位单元,用于根据所述媒体内容时间片段的时间信息标注经文本分类器分类后具有不同主题的每一个内容片段的具体播放时间信息,得到具有具体时间信息的多个具有不同个主题的内容片段。
优选的,所述媒体内容标注处理单元还包括:
标注适配单元,用于将经内容分类定位单元标注了具体播放时间且具有不同主题的内容片段与本体库中的概念进行匹配,并以本体库中定义的词汇来标注所述内容片段。
优选的,所述***进一步包括:
媒体内容注册信息库,用于记录与本体库中的内容进行匹配后的内容片段。
一种媒体内容管理方法,包括:
根据待标注媒体内容的媒体标识获取对应的字幕信息;
提取上述获取的字幕信息中的字幕内容信息,对所述字幕内容信息按照时间先后顺序进行标识,形成多个媒体内容时间片段,并按照定义好的主题内容进行分类,得到具有不同主题的多个内容片段;
根据所述媒体内容时间片段的时间信息标注所述每个内容片段在媒体中的具体播放时间信息,得到具有具体时间信息的多个具有不同个主题的内容片段。
优选的,所述根据媒体内容时间片段的时间信息标注每个内容片段在媒体中的具体播放时间信息的方法具体包括:
提取所述获取的字幕信息中的字幕内容信息,记录每个标有起止时间的字幕内容的标识及时间信息;
以有标识的字幕内容为单位按照定义好的主题进行分类,形成多个包括一个或多个主题的内容片段;
根据所述时间信息标注所述每个内容片段在媒体中具体播放时间信息。
优选的,所述根据时间信息标注每个内容判断在媒体中具体播放时间信息的方法包括:
根据每个内容片段的主题在内容片段中出现的时间标注内容片段的时间信息。
优选的,所述标注内容片段的时间信息的方法具体包括:
根据事先设定的或根据媒体利用算法确定一个时间阈值将时间间隔超过所述设定的阈值的一个内容片段内的多个主题切分成多个同主题的内容片段;
确定每个内容片段中出现时间最早的语句为开始语句和结束时间最晚的语句为结束语句,取内容片段的开始语句的开始时间为内容片段在媒体播放时的开始时间,结束语句的结束时间为内容片段的结束时间。
优选的,所述方法还包括:
根据所述标注了具体播放时间的具有不同主题的内容片段的主题与本体库中的概念进行匹配,以本体库中的词汇来标注所述内容片段。
优选的,所述方法还包括:
记录以本体库中的词汇来标注的内容片段。
由上述本发明提供的技术方案可以看出,本发明通过分析与媒体对应的字幕文件,对媒体内容按时间区分成不同的内容片段,并对每个内容片段里面的内容与本体概念进行关联,记录了内容片段在媒体中出现的位置。这样是将媒体的内容利用标准的词汇进行描述,利于对内容描述信息的统一,使得对媒体的内容检索成为可能。
另外,利用本发明提供的方法和***,可以提供对媒体内容进行语义相关检索。在很多应用中,用户希望检索自己感兴趣的某方面的内容,而利用本体词汇进行描述和标注,在提供普通的内容检索的基础上,利用语义推理,可以进行关联搜索。例如,当某个新闻或其他多媒体片段被标注成“篮球”时,在本体概念中,可以通过关系“篮球”是“体育”的子类,进行一个继承关系的推理,从而,当用户搜索“体育”相关节目内容时,也会把该片段或该片段对应的整个媒体找出来。这在一定程度上丰富了媒体内容查询的范围。而记录了片段在媒体中的位置,可以让用户很方便的定位自己关注的内容。
在另外的一些场合,可以利用本发明提供的方法和***进行相关媒体内容剪辑。如,当用户希望在大量的多媒体内容中找到他所关注的恐怖袭击相关的内容时,利用本发明提供的***的结果,可以很容易的编写应用程序,让电脑根据本体推理找到相关的主题,再根据主题从大量的媒体内容中,根据起止时间将对应的内容进行剪辑,从而只将关注的内容找出来。这在一定程度上大大方便了人工处理的工作量。
附图说明
图1为本发明所述***一种实施例结构示意图;
图2为本发明所述方法一种实施例流程图;
图3为本发明所述方法内容分段、定位一种实施例流程图;
图4为字幕内容分类一种实施例示意图;
图5为媒体内容与本体库关联一种实施例示意图。
具体实施方式
本发明实施例提供一种媒体内容管理***,所述***一种实施例结构示意图如图1所示,本***包括:本体库、媒体库、及媒体库附带的媒体字幕库、文本分类器、媒体内容标注处理单元、媒体内容注册信息库等。下面对各实体的功能及各实体间的关联作详细介绍:
本体库:本体库中定义了若干概念,包括若干词汇,以及词汇之间的关系。这些词汇是对具体事务的描述,每一词汇都有唯一的资源标识。建立本体库的作用在于获取媒体相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。目前描述本体的语言或标准包括:OWL(Web Ontology Language,一种本体语言)、KIF(KnowledgeInterchange Format,一种数据交换标准)、OCML(Operational ConceptualModelling Language,一种本体语言)、FLogic(Frame Logic,框架逻辑)、SHOE(Simple HTML Ontology Extensions,一种本体语言)、XOL(Ontology Exchange Language,一种本体语言)、OIL(Ontology InferenceLayer/Ontology Interchange Language,本体推理层/本体交换语言)、DAML(DARPA Agent Markup Language,一种本体语言)以及RDF(ResourceDescription Framework,资源描述框架)及其RDF Schema(RDF的扩展)等。
媒体库:媒体库中保存的是具体的媒体内容,如视频内容、音频内容等。每个具体的媒体有一个唯一的标识。所述的媒体标识可以是媒体无重名的文件名,如“2006-9-27新闻联播.wmv”,或者是为媒体专门分配的索引等标识,如“4512358”等,还可能是其他的任何能够唯一标识该媒体的数字或文字、字母符号序列、URL(统一资源***)或URI(统一资源标识)。
媒体字幕库:记录的是与媒体库中的媒体内容对应的对媒体附带的字幕信息。目前,字幕文件分嵌入式字幕文件和外挂字幕文件,嵌入式字幕文件直接融入在媒体文件中,是不可修改和编辑的;而外挂字幕文件需要一个另外的独立的文件,里面记录了按照时间先后出现的话音等的字幕。视频外挂字幕文件包括但不限于.txt、.srt、.sub、.ssa、.smi几种文件格式。字幕信息中除了包括字幕文本信息,即字幕内容信息外,还包括:字幕出现的时间码信息、字幕文件所对应的媒体标识信息。一般,字幕文件的文件名中不带后缀部分与媒体内容文件名的不带后缀部分一致,据此可以直接判断二者的对应关系。
所述媒体库也可以和媒体字幕库放在一起,或者将媒体和媒体字幕文件放在一起。
媒体内容标注处理单元:用于标注经文本分类器(具体功能见下面文本分类器的功能介绍)分类后得到的每个具有不同主题的内容片段的具体播放时间信息,得到具有具体时间信息的多个具有不同主题的内容片段,并将所述标注了具体播放时间的具有不同主题的每个内容片段以本体库中定义的词汇进行标注,从而与本体库中的内容进行关联。
所述媒体内容标注处理单元包括三个子单元:
媒体内容提取单元:主要功能包括从媒体库中获取待标注的媒体内容的媒体标识,根据所述的媒体标识在媒体字幕库中获取对应的字幕信息,并识别所述字幕信息中的字幕内容信息,对字幕内容信息按照时间先后顺序进行标识,形成多个字幕内容时间片段,即媒体内容时间片段。
内容分类定位单元:主要功能包括标注经文本分类器进行分类后的具有不同主题的内容片段的具体播放时间信息,即标注每一个内容片段的开始时间点和结束时间点,得到具有具体时间信息的多个具有不同主题的内容片段。
标注适配单元:主要功能包括将经内容分类定位单元按时间区分的分类信息与本体库中的概念进行匹配,并以本体库中定义的词汇来标注该内容片段,生成内容标注信息,内容标注信息包括但不限于:该片段所属的媒体的标识、内容片段对应的本体概念标识、片段的起止时间点描述信息等。
文本分类器:用于对媒体内容提取单元获取的若干独立的字幕信息中的字幕内容信息按照定义好的主题内容进行分类。文本分类器中一般有事先设定的若干主题词或主题语句以及判断文本内容是属于哪个主题的逻辑及算法。其输入是多个独立的文本信息,而输出是按照主题对这些文本信息的分类,分类后得到多个具有不同主题的内容片段。
媒体内容注册信息库:用于记录经标注适配单元标注好的内容片段。
本发明实施例提供一种媒体内容管理方法,所述方法一种实施例实现流程如图2所示,包括如下步骤:
步骤1:获取待标注媒体内容的媒体标识;
对于给定的媒体库,存放至少一个媒体文件,媒体内容提取单元从媒体库中获取待标注的媒体内容的媒体标识,所述媒体标识可能是媒体文件的文件名或是专门为媒体文件建立的索引等标识信息。
步骤2:根据所述获取的媒体标识获取对应的字幕文件;
所述的字幕文件是指为每个媒体中的对话或者其他的话音、解释进行文字描述的文件。一个媒体标识可以唯一对应一份字幕文件。
目前,字幕文件分嵌入式字幕文件和外挂字幕文件,嵌入式字幕文件直接融入在媒体文件中,是不可修改和编辑的;而外挂字幕文件需要一个另外的独立的文件,里面记录了按照时间先后出现的话音等的字幕。外挂字幕文件的格式包括但不限于:.txt、.srt、.sub、.ssa、.smi等。这些文件格式的字幕里面的字幕文件至少包括:字幕内容信息及字幕出现的时间码信息(开始时间、结束时间)、字幕文件所对应的媒体标识信息。所述的时间信息在字幕中以标准格式的时间码的格式出现,其格式为XX:XX:XX,三个字段分别表示小时、分、秒。
步骤3:提取上述获取的字幕文件中的字幕内容,对所述字幕内容信息按照时间先后顺序进行标识,形成多个媒体内容时间片段,并按照定义好的主题内容进行分类,得到具有不同主题的多个内容片段,根据所述媒体内容时间片段的时间信息标注每个内容片段在媒体中的具体播放时间信息,得到具有具体时间信息的多个具有不同个主题的内容片段;
一种实施例具体实现过程如图3所示,包括如下步骤:
步骤30:读取字幕文件内容,记录每个标有起止时间的字幕内容的标识及时间信息;
对于给定的字幕文件进行识别,提取字幕文件中所有出现的字幕内容信息以及字幕内容对应的时间码信息,所述的字幕内容信息可以为字幕语句,对于每个有时间码的字幕语句,记录一个标识,内容提取结果如下实例所示:
标识 字幕语句 时间
1001 本拉登的生死成为大家关注的一个焦点 00:25:17-00:25:25
1002 美国反恐发言人称无证据证明本拉登已死亡 00:25:30-00:25:33
1003 目前国际恐怖活动依然猖獗 00:30:39-00:30:45
1004 现在让我们来看看体育方面的消息 00:30:45-00:30:50
1005 今天,是中国网球公开赛的第四天 00:31:15-00:31:20
其中每个时间信息分为该语句在媒体播放时的开始时间和结束时间,“-”前面的部分为开始时间,“-”后面的部分为结束时间。
每类格式的字幕文件均有固定的格式,有成熟的字幕内容、格式提取工具,如专业的VOBSUB字幕识别软件,能够提取多种格式的字幕信息;而对于.txt等的文本格式的字幕,其时间和字幕信息都是固定格式,利用正则表达式可以提取满足条件的信息。该提取技术为现有技术,本发明对此不作详细描述。
步骤31:以有标识的字幕语句为单位按照定义好的主题进行分类,形成多个包括一个或多个代表不同主题的内容片段;
目前基于文本信息的信息分类有多种方法,有相对成熟的现有技术。如TF/IDF(term frequency,词汇频率/inverse document frequency,逆文本频率)在信息分类、检索中已成为公认的方法,还包括:贝叶斯算法、Rocchio(相似度计算方法)、KNN(K-nearest neighbor K近邻方法)、
Figure C20061016483800151
Bayes(朴素贝叶斯)等。所述的各种信息分类方法均能够将输入给分类器的不同的文本内容按照不同主题进行分类。所述的主题包括事先人为定制的知识分类或者在分类的过程中进行机器学习的关键词目录结构等。
本发明所述的对字幕内容分类是以整个字幕文件的内容为对象,每一个能够单独标识的字幕语句为单位。如图4是分类的一个过程示意图。其中对字幕文件的分类过程采用上述现有的技术之一,而输入数据可由本发明所述***中的媒体内容提取单元产生,而输出数据的接收部件可为内容分类定位单元。
进行内容分类后,整个字幕文件分成若干个不同主题的分类信息,即本发明所述的内容片段,每个内容片段包含一个或多个能够独立区分的在媒体中有起止出现时间的字幕语句,即主题。而片段与片段在时间或包含字幕语句上可能有交叉或包含关系。而这些包含某一个主题内容的以字幕来代表内容的片段对应着媒体的某一个时间段的媒体片段。对于一些新闻、体育解说节目等媒体来说,这些由字幕反映的内容,本身就是媒体所展现的人能够理解的内容。
步骤32:根据所述媒体内容时间片段的时间信息标注所述每个内容片段在媒体中的具体播放时间信息,得到具有具体时间信息的多个具有不同主题的内容片段;
由于每个内容片段包含一个或多个主题,而每个主题出现的时间均不同。而这里的内容片段是对应媒体中的某一个媒体片段的。需要根据每个主题出现的时间来标注内容片段出现的时间范围。
标注方法包括:根据一个时间阈值(可以是事先设定的或是根据媒体利用算法确定)来对时间间隔超过所述阈值的一个内容片段内的多个主题进行切分,成为多个同主题的内容片段。例如,当某个内容片段中,包含三个字幕语句1001、1002、1003,而时间阈值设为3分钟,字幕1003的开始时间与其他的两个字幕的时间段相差3分钟以上,则将该内容片段分成分别由1001、1002以及1003组成的两个主题相同的不同的内容片段。
标注每个内容片段在媒体中播放的时间段的方法包括:确定每个内容片段中出现时间最早的语句为开始语句和结束时间最晚的语句为结束语句。取内容片段的开始语句的开始时间为内容片段在媒体播放时的开始时间,结束语句的结束时间为内容片段的结束时间。
  内容片段标识 主题     起始时间     结束时间
  101 ***、安全     00:25:17     00:25:33
  102 ***、安全     00:30:39     00:30:45
  103 体育     00:30:45     00:31:20
    104     网球     00:31:15     00:31:20
步骤4:对上述分类处理后的内容与本体概念进行匹配,以本体中的词汇来标注该内容片段;
对于上述过程中进行字幕内容分类后得到的片段,每个片段有一个代表其内容的一个或若干主题(可以是关键词或语句)。为了将该片段的内容与本体中概念进行关联,需要对主题与本体概念进行适配,找到与内容片段对应的本体概念。所述的适配是指在本体库中找到与主题意义接近或相同的概念。具体实现上有多种现有方法。例如,可以利用传统的词语模糊匹配算法,在本体中找到与所匹配的主题词最接近的概念,或是根据片段的其他的主题词进行修正,最后可以匹配一个或多个本体词汇来标识该片段的主题内容。
对于一些简单的关键词与本体概念匹配中,可以利用传统的词语模糊匹配方法。具体方法一种实施例为:将本体概念作为普通的词汇,利用数据查询中的“like”函数,找出本体中包含一部分或全部待查词汇的词。如利用“like”匹配方法,可以找出“恐怖”在本体中匹配的概念为“***”;而当有多个匹配上的本体概念时,可以通过匹配上的字占概念中字数比例等方法来判断匹配度,从而确定最接近的本体概念。其他的一些本体概念匹配算法,包括引入本体推理、相关性匹配算法等,能够提供更精确和效率更高的匹配方法。
而对于一些给定的本体库和给定的领域知识分类知识库,其概念之间本身就存在映射关系,这种映射关系显示了某个主题词或主题语句与本体概念中词汇的映射关系如下表所示:
  索引 主题词     对应的本体URI 备注
  1 ***     http://www.xinhua.com/terns/***
    2 体育     http://www.xinhua.com/terns/体育
对于这种有映射关系的主题,执行过程包括:首先选取内容片段的主题词;之后查找映射表中该主题词对应的本体URI,作为标注该内容片段的本体概念。如图5所示为一个具体的内容片段与本体库关联的实施例;
步骤5:根据上述的匹配信息生成并存储标注信息。
标注信息包括对每个进行分类的内容片段进行记录,记录的内容包括但不限于:内容片段所属的媒体标识、内容片段所对应的媒体概念资源标识、内容片段在媒体中的起始时间和终止时间等。上述存储的标注信息作为对媒体内容进行管理的基础。
步骤6:判断是否存在待标注媒体;
如果不存在,则结束;如果存在,则重复执行上述步骤1至步骤5的操作。
上述实施例为本发明最佳实施例,其中找到媒体片段内容的主题如“网球”后,对其在本体中进行匹配,找到本体的词汇来标注该片段内容可以省略。
综上所述,本发明通过分析与媒体对应的字幕文件,对媒体内容按时间区分成不同的内容片段,并对每个片段里面的内容与本体概念进行关联,记录了内容片段在媒体中出现的位置。这样将媒体的内容利用标准的词汇进行描述,利于对内容描述信息的统一,使得对媒体的内容检索成为可能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (15)

1、一种媒体内容管理***,包括:
本体库,用于存储若干概念,包括媒体相关领域共同认可的词汇,及所述词汇与词汇之间相互关系;
媒体库,用于保存具有媒体标识的具体的媒体内容;
媒体字幕库,用于保存与媒体库中的媒体内容对应的对媒体附带的字幕信息;
文本分类器,用于对字幕信息按照定义好的主题内容进行分类,得到多个具有不同主题的内容片段;
其特征在于,所述***还包括:
媒体内容标注处理单元,用于标注经文本分类器分类后具有不同主题的每一个内容片段的具体播放时间信息,得到具有具体时间信息的多个具有不同主题的内容片段。
2、如权利要求1所述的***,其特征在于,所述媒体内容标注处理单元进一步包括:
媒体内容提取单元,用于从媒体库中获取待标注的媒体内容的媒体标识,根据所述的媒体标识在媒体字幕库中获取对应的字幕信息,并识别所述字幕信息中的字幕内容信息,对字幕内容信息按照时间先后顺序进行标识,形成多个媒体内容时间片段;
内容分类定位单元,用于根据所述媒体内容时间片段的时间信息标注经文本分类器分类后具有不同主题的每一个内容片段的具体播放时间信息,得到具有具体时间信息的多个具有不同主题的内容片段。
3、如权利要求2所述的***,其特征在于,所述媒体内容标注处理单元还包括:
标注适配单元,用于将经内容分类定位单元标注了具体播放时间且具有不同主题的内容片段与本体库中的概念进行匹配,并以本体库中定义的词汇来标注所述内容片段。
4、如权利要求3所述的***,其特征在于,所述以本体库中定义的词汇来标注所述内容片段的标注信息包括:每类所属的媒体标识、每类内容对应的本体概念标识、每类内容的起止时间点描述信息。
5、如权利要求3所述的***,其特征在于,所述***进一步包括:
媒体内容注册信息库,用于记录与本体库中的内容进行匹配后的内容片段。
6、如权利要求1所述的***,其特征在于,所述本体库中每一词汇具有唯一的资源标识。
7、如权利要求1所述的***,其特征在于,所述媒体标识是媒体无重名的文件名、或为媒体专门分配的索引、或任何能够唯一标识该媒体的数字或文字、字母符号序列、统一资源***URL、或统一资源标识URI。
8、如权利要求1所述的***,其特征在于,所述字幕信息包括:
字幕内容信息、字幕出现的时间码信息、和/或字幕文件所对应的媒体标识信息。
9、一种媒体内容管理方法,其特征在于,包括:
根据待标注媒体内容的媒体标识获取对应的字幕信息;
提取上述获取的字幕信息中的字幕内容信息,对所述字幕内容信息按照时间先后顺序进行标识,形成多个媒体内容时间片段,并按照定义好的主题内容进行分类,得到具有不同主题的多个内容片段;
根据所述媒体内容时间片段的时间信息标注所述每个内容片段在媒体中的具体播放时间信息,得到具有具体时间信息的多个具有不同主题的内容片段。
10、如权利要求9所述的方法,其特征在于,所述的字幕信息是为每个媒体中的对话或者其他的话音、解释进行文字描述的文件,包括:字幕内容信息、字幕出现的时间码信息、和/或字幕文件所对应的媒体标识信息。
11、如权利要求9所述的方法,其特征在于,所述根据媒体内容时间片段的时间信息标注每个内容片段在媒体中的具体播放时间信息的方法具体包括:
提取所述获取的字幕信息中的字幕内容信息,记录每个标有起止时间的字幕内容的标识及时间信息;
以有标识的字幕内容为单位按照定义好的主题进行分类,形成多个包括一个或多个主题的内容片段;
根据所述时间信息标注所述每个内容片段在媒体中具体播放时间信息。
12、如权利要求11所述的方法,其特征在于,所述根据时间信息标注每个内容判断在媒体中具体播放时间信息的方法包括:
根据每个内容片段的主题在内容片段中出现的时间标注内容片段的时间信息。
13、如权利要求12所述的方法,其特征在于,所述标注内容片段的时间信息的方法具体包括:
根据事先设定的或根据媒体利用算法确定一个时间阈值将时间间隔超过所述设定的阈值的一个内容片段内的多个主题切分成多个同主题的内容片段;
确定每个内容片段中出现时间最早的语句为开始语句和结束时间最晚的语句为结束语句,取内容片段的开始语句的开始时间为内容片段在媒体播放时的开始时间,结束语句的结束时间为内容片段的结束时间。
14、如权利要求9至13中任一项所述的方法,其特征在于,所述方法还包括:
根据所述标注了具体播放时间的具有不同主题的内容片段的主题与本体库中的概念进行匹配,以本体库中的词汇来标注所述内容片段。
15、如权利要求14中任一项所述的方法,其特征在于,所述方法还包括:
记录以本体库中的词汇来标注的内容片段。
CNB200610164838XA 2006-12-06 2006-12-06 一种媒体内容管理***及方法 Expired - Fee Related CN100449547C (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNB200610164838XA CN100449547C (zh) 2006-12-06 2006-12-06 一种媒体内容管理***及方法
PCT/CN2007/071133 WO2008067749A1 (fr) 2006-12-06 2007-11-27 Système et procédé de gestion de contenu média
US12/479,066 US8200597B2 (en) 2006-12-06 2009-06-05 System and method for classifiying text and managing media contents using subtitles, start times, end times, and an ontology library

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200610164838XA CN100449547C (zh) 2006-12-06 2006-12-06 一种媒体内容管理***及方法

Publications (2)

Publication Number Publication Date
CN101000617A CN101000617A (zh) 2007-07-18
CN100449547C true CN100449547C (zh) 2009-01-07

Family

ID=38692589

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200610164838XA Expired - Fee Related CN100449547C (zh) 2006-12-06 2006-12-06 一种媒体内容管理***及方法

Country Status (3)

Country Link
US (1) US8200597B2 (zh)
CN (1) CN100449547C (zh)
WO (1) WO2008067749A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102377914A (zh) * 2011-09-22 2012-03-14 宇龙计算机通信科技(深圳)有限公司 终端和多媒体文件管理方法
US8200597B2 (en) 2006-12-06 2012-06-12 Huawei Technologies Co., Ltd. System and method for classifiying text and managing media contents using subtitles, start times, end times, and an ontology library

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US8042132B2 (en) 2002-03-15 2011-10-18 Tvworks, Llc System and method for construction, delivery and display of iTV content
WO2003026275A2 (en) 2001-09-19 2003-03-27 Meta Tv, Inc. Interactive user interface for television applications
US7703116B1 (en) 2003-07-11 2010-04-20 Tvworks, Llc System and method for construction, delivery and display of iTV applications that blend programming information of on-demand and broadcast service offerings
US8220018B2 (en) 2002-09-19 2012-07-10 Tvworks, Llc System and method for preferred placement programming of iTV content
US11381875B2 (en) 2003-03-14 2022-07-05 Comcast Cable Communications Management, Llc Causing display of user-selectable content types
US8578411B1 (en) 2003-03-14 2013-11-05 Tvworks, Llc System and method for controlling iTV application behaviors through the use of application profile filters
US8819734B2 (en) 2003-09-16 2014-08-26 Tvworks, Llc Contextual navigational control for digital television
US7818667B2 (en) 2005-05-03 2010-10-19 Tv Works Llc Verification of semantic constraints in multimedia data and in its announcement, signaling and interchange
US11832024B2 (en) 2008-11-20 2023-11-28 Comcast Cable Communications, Llc Method and apparatus for delivering video and video-related content at sub-asset level
US8713016B2 (en) 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
US9442933B2 (en) 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US20100161441A1 (en) * 2008-12-24 2010-06-24 Comcast Interactive Media, Llc Method and apparatus for advertising at the sub-asset level
US11531668B2 (en) 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
US8176043B2 (en) 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
US8533223B2 (en) 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US9892730B2 (en) 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
CN102087649B (zh) * 2009-12-08 2015-04-29 新奥特(北京)视频技术有限公司 一种字幕素材文件和伴侣文件的管理方法和装置
CN102088568B (zh) * 2009-12-08 2016-08-10 新奥特(北京)视频技术有限公司 一种字幕制作***
CN102024009A (zh) * 2010-03-09 2011-04-20 李平辉 视频场景库生成方法及***、搜索视频场景的方法及***
CN102136008A (zh) * 2011-04-02 2011-07-27 天脉聚源(北京)传媒科技有限公司 一种音视频数据标引的方法和***
CN102739997A (zh) * 2011-05-10 2012-10-17 新奥特(北京)视频技术有限公司 一种字幕插件分段渲染方法
US8620917B2 (en) * 2011-12-22 2013-12-31 Telefonaktiebolaget L M Ericsson (Publ) Symantic framework for dynamically creating a program guide
CN102752541B (zh) * 2012-02-28 2018-05-04 新奥特(北京)视频技术有限公司 一种比赛现场字幕的生成方法
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
CN103838751A (zh) * 2012-11-23 2014-06-04 鸿富锦精密工业(深圳)有限公司 视频内容搜索***及方法
US10880609B2 (en) 2013-03-14 2020-12-29 Comcast Cable Communications, Llc Content event messaging
US9251125B2 (en) * 2013-03-15 2016-02-02 International Business Machines Corporation Managing text in documents based on a log of research corresponding to the text
DK2994908T3 (da) 2013-05-07 2019-09-23 Veveo Inc Grænseflade til inkrementel taleinput med realtidsfeedback
US10380253B2 (en) * 2014-03-04 2019-08-13 International Business Machines Corporation Natural language processing with dynamic pipelines
KR102244298B1 (ko) 2014-04-30 2021-04-23 삼성전자주식회사 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법
US11783382B2 (en) 2014-10-22 2023-10-10 Comcast Cable Communications, Llc Systems and methods for curating content metadata
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
CN104883584A (zh) * 2015-05-19 2015-09-02 福建宏天信息产业有限公司 一种远程解析字幕的方法及***
US10747801B2 (en) * 2015-07-13 2020-08-18 Disney Enterprises, Inc. Media content ontology
US9544704B1 (en) * 2015-07-16 2017-01-10 Avaya Inc. System and method for evaluating media segments for interestingness
KR101983493B1 (ko) * 2017-04-10 2019-05-29 한국과학기술원 자연어 텍스트로부터 학습된 객체 표상에 포함된 특성 해석 및 시각화 방법 그리고 시스템
CN107908762A (zh) * 2017-11-17 2018-04-13 广州慧睿思通信息科技有限公司 一种自定义关键词串并历史数据的方法及***
CN109408626B (zh) * 2018-11-09 2021-09-21 思必驰科技股份有限公司 对自然语言进行处理的方法及装置
US11429789B2 (en) 2019-06-12 2022-08-30 International Business Machines Corporation Natural language processing and candidate response identification
US11163953B2 (en) * 2019-06-12 2021-11-02 International Business Machines Corporation Natural language processing and candidate response evaluation
CN112329423A (zh) * 2020-11-05 2021-02-05 上海钐昆网络科技有限公司 Icp备案公司分类方法、装置、电子设备及计算机存储介质
CN112765460A (zh) * 2021-01-08 2021-05-07 北京字跳网络技术有限公司 会议信息查询方法、装置、存储介质、终端设备和服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020059303A1 (en) * 2000-10-27 2002-05-16 Yoshihiro Ohmori Multimedia data management system
US20030115598A1 (en) * 2001-03-23 2003-06-19 Pantoja William E. System and method for interactively producing a web-based multimedia presentation
CN1430166A (zh) * 2003-01-07 2003-07-16 财团法人资讯工业策进会 建立影片检索数据库的方法及记录媒体
CN1445684A (zh) * 2002-03-20 2003-10-01 文化传信科技(澳门)有限公司 媒体管理方法以及***
US20040032486A1 (en) * 2002-08-16 2004-02-19 Shusman Chad W. Method and apparatus for interactive programming using captioning
CN1851705A (zh) * 2006-05-30 2006-10-25 南京大学 基于本体的主题式网络爬虫***构建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021217A (ja) * 1996-07-02 1998-01-23 Fuji Xerox Co Ltd ハイパーメディア装置
CN1863278A (zh) * 2006-01-09 2006-11-15 华为技术有限公司 一种实现字幕功能的方法及***
CN100449547C (zh) * 2006-12-06 2009-01-07 华为技术有限公司 一种媒体内容管理***及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020059303A1 (en) * 2000-10-27 2002-05-16 Yoshihiro Ohmori Multimedia data management system
US20030115598A1 (en) * 2001-03-23 2003-06-19 Pantoja William E. System and method for interactively producing a web-based multimedia presentation
CN1445684A (zh) * 2002-03-20 2003-10-01 文化传信科技(澳门)有限公司 媒体管理方法以及***
US20040032486A1 (en) * 2002-08-16 2004-02-19 Shusman Chad W. Method and apparatus for interactive programming using captioning
CN1430166A (zh) * 2003-01-07 2003-07-16 财团法人资讯工业策进会 建立影片检索数据库的方法及记录媒体
CN1851705A (zh) * 2006-05-30 2006-10-25 南京大学 基于本体的主题式网络爬虫***构建方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200597B2 (en) 2006-12-06 2012-06-12 Huawei Technologies Co., Ltd. System and method for classifiying text and managing media contents using subtitles, start times, end times, and an ontology library
CN102377914A (zh) * 2011-09-22 2012-03-14 宇龙计算机通信科技(深圳)有限公司 终端和多媒体文件管理方法

Also Published As

Publication number Publication date
US20090240650A1 (en) 2009-09-24
US8200597B2 (en) 2012-06-12
WO2008067749A1 (fr) 2008-06-12
CN101000617A (zh) 2007-07-18

Similar Documents

Publication Publication Date Title
CN100449547C (zh) 一种媒体内容管理***及方法
US9542393B2 (en) Method and system for indexing and searching timed media information based upon relevance intervals
Tan et al. Unsupervised query segmentation using generative language models and wikipedia
US10445359B2 (en) Method and system for classifying media content
US7636714B1 (en) Determining query term synonyms within query context
CN102207948B (zh) 一种事件陈述句素材库的生成方法
US20060173916A1 (en) Method and system for automatically generating a personalized sequence of rich media
US20100274667A1 (en) Multimedia access
US20070022109A1 (en) Systems and methods for answering user questions
WO2002008950A2 (en) Automatic summarization of a document
CN101404015A (zh) 自动生成词条层次
CN110705288A (zh) 一种基于大数据的舆情分析***
US20050050086A1 (en) Apparatus and method for multimedia object retrieval
Balasubramanian et al. A multimodal approach for extracting content descriptive metadata from lecture videos
Khan et al. Audio structuring and personalized retrieval using ontologies
Fernández et al. Vits: video tagging system from massive web multimedia collections
US9183297B1 (en) Method and apparatus for generating lexical synonyms for query terms
US20230401389A1 (en) Enhanced Natural Language Processing Search Engine for Media Content
Khan et al. Disambiguation of annotated text of audio using onologies
CN106844329A (zh) 一种基于邮件列表的开源软件问答信息抽取方法
KR20040054308A (ko) 뉴스 비디오의 개별기사 군집화 방법 및 뉴스 브라우징방법
Ren et al. Semantic based adaptive movie summarisation
Sayyadi et al. Survey on news mining tasks
Demiros et al. Media monitoring by means of speech and language indexing for political analysis
Wilkinson et al. Document Publication

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090107