CN111615696A - 用于相关性检测和审阅的内容的交互式表示 - Google Patents
用于相关性检测和审阅的内容的交互式表示 Download PDFInfo
- Publication number
- CN111615696A CN111615696A CN201880086990.1A CN201880086990A CN111615696A CN 111615696 A CN111615696 A CN 111615696A CN 201880086990 A CN201880086990 A CN 201880086990A CN 111615696 A CN111615696 A CN 111615696A
- Authority
- CN
- China
- Prior art keywords
- cloud
- content
- elements
- video
- graphical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012552 review Methods 0.000 title description 6
- 230000002452 interceptive effect Effects 0.000 title description 4
- 238000001514 detection method Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000008569 process Effects 0.000 claims abstract description 40
- 230000000007 visual effect Effects 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims description 52
- 239000002131 composite material Substances 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 14
- 238000012800 visualization Methods 0.000 claims description 12
- 238000013518 transcription Methods 0.000 claims description 11
- 230000035897 transcription Effects 0.000 claims description 11
- 230000008451 emotion Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 230000000875 corresponding effect Effects 0.000 claims description 7
- 230000001360 synchronised effect Effects 0.000 claims description 7
- 239000003086 colorant Substances 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 6
- 238000012015 optical character recognition Methods 0.000 claims description 6
- 239000000463 material Substances 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 230000036651 mood Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 7
- 230000001755 vocal effect Effects 0.000 abstract description 3
- 230000011218 segmentation Effects 0.000 abstract description 2
- 238000013519 translation Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 238000013461 design Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 240000001987 Pyrus communis Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种内容提取和显示过程,所述过程可以包括用于以下的各种功能:将内容分段为可分析的部分、对这样的分段内的内容的相关性进行排名、以及以图形云形式显示排名高的提取。一些实施例中的图形云将随着内容被回放或获取而动态地且同步地更新。提取的元素可以是以下形式:字词、短语、音频序列、非言语视觉分段或图标、以及可通过图形显示表达的传达数据对象的其它信息的宿主。
Description
技术领域
本说明书涉及从基于音频、视觉和文本的内容提取重要信息,并且特别地涉及以支持快速且高效的内容审阅的方式显示提取的信息。
背景技术
基于音频、视频和/或文本的内容已变得越来越容易生成和递送。在许多商业、娱乐和个人使用场景中,比可以容易地吸收和处理的多的内容被呈现给用户,但是在许多情况下,仅内容的部分是实际相关的,并且值得实际的集中研究。诸如由本公开的所有者制作的***的***提供辨识并且提取A/V内容的重要部分以节省用户时间和精力的工具。进一步级别的内容分析和信息提取可能对用户是有益的,并且是用户期望的。
发明内容
本文中描述的示例实施例具有创新的特征,其中没有一个特征是不可缺少的或者单独地负责它们的期望的属性。在不限制权利要求的范围的情况下,现在将总结有利的特征中的一些。
在一些实施例中,可以提供内容提取和显示过程。这样的过程可以包括用于以下的各种功能:将内容分段为可分析的部分,对这样的分段内和跨这样的分段的内容的相关性进行排名,并且以图形云形式显示排名高的提取。一些实施例中的图形云将随着内容被回放、获取或审阅而动态地更新。提取的元素可以是以下形式:字词、短语、非言语视觉元素或图标、以及与图形显示兼容的传达数据对象的其它信息的宿主。
在本公开中,云元素是组成图形云的视觉组件,云透镜定义可以被显示的潜在的云元素的集合,并且云过滤器定义用于对哪些云元素被显示进行优选顺序排列的排名。
可以提供用于从内容源提取并显示相关信息的过程,包括:从实时流或预先记录的储存器中的至少一个获取内容;指定云透镜,所述云透镜定义分段持续时间或长度中的至少一个,其中,所述分段包括时间或序列排序的云元素的总共数量的至少一个的全部或子集中的至少一个;应用至少一个云过滤器以对与给定的分段相关联的每个云元素的显著性水平进行排名;基于选择的预定的云元素密度定义针对给定的分段要在图形云中使用的云元素的数量;构造至少一个图形云,所述图形云包括从所述内容导出的、由过滤的云元素组成的可视化;以及,使所述云透镜滚动通过分段以显示显著的云元素的图形云。
在一个实施例中,云元素通过变换或分析中的至少一个被从源内容导出,并且包括图形元素中的至少一个,所述图形元素包括字词、字词短语、完整的句子、图标、头像、表情符号,其表示所讲或所写中的至少一个的字词或短语、所表达的情感、讲话者的意图、讲话者的语调、讲话者的音调变化、讲话者的心情、讲话者改变、讲话者标识、对象标识、导出的含义、活动的手势、导出的调色板、或者可以通过源内容或变换内容的变换和分析导出的其它材料特性。在另一实施例中,执行滚动通过分段,其中,分段由连贯或者重叠的云元素组定义。
在一个实施例中,云过滤器包括以下中的至少一个:云元素频率,其包括指定的云透镜分段内的出现数量、整个内容样本上的出现数量;字词权重;复杂度,其包括字母、音节等的数量;句法,其包括基于语法的、词性、关键词、术语提取、基于上下文的字词含义、句子边界;情感;或者音频或视频幅度的改变,其包括响度或电平变化。在另一实施例中,所述内容包括音频、视频或文本中的至少一个。在一个实施例中,所述内容是文本、音频和视频中的至少一个,并且音频/视频通过使用转录、自动转录或这两者的组合而被变换为文本。
在另一实施例中,变换和分析确定云元素的元素属性或元素关联中的至少一个,所述元素属性或元素关联支持云元素的包括词性标签排名的云过滤器排名,或者当存在时可以形成将多个下级云元素组合成单个复合云元素的基础。在一个实施例中,文本云元素包括元素属性中的至少一个,所述元素属性包括词性标签,所述词性标签对于英语包括名词、专有名词、形容词、动词、副词、代词、介词、连词、感叹词、或者冠词。
在另一实施例中,文本云元素包括基于以下中的至少一个的元素关联中的至少一个:包括名词、形容词或副词的词性属性;及其相关联的具有包括代词、名词或形容词的对应属性的字词云元素。在一个实施例中,提取基于语法的组成部分的句法分析被应用于变换输出文本,所述变换输出文本包括至少一个词性、句子组成部分的解析、以及断句,所述词性包括名词、动词、形容词和其它词性,其中,句法分析包括跟踪间接引用,包括基于词性的关联,从而定义元素属性和元素关联。
在另一实施例中,提取单个字词的含义的句法分析被应用,包括以下中的至少一个:识别专有名称;应用光学字符识别(OCR)以确定对应的文本、或包括关系提取的字词之间的关联,从而定义元素属性和元素关联。在一个实施例中,数字信号处理被应用以生成包括以下中的至少一个的度量:信号幅度、包括语音电平和语音电平范围(对于音频和视频)的动态范围、视觉手势(视频)、讲话者标识(音频和视频)、讲话者改变(音频和视频)、讲话者语调、讲话者音调变化、个人标识(音频和视频)、颜色方案(视频)、音高变化(音频和视频)以及讲话速率(音频和视频)。
在另一实施例中,情感分析被应用以估计情感状态。在一个实施例中,所述云过滤器包括:基于来自内容变换和自然语言处理分析的结果、从最高到最低按优先顺序排列的词性元素属性:专有名词、名词、动词、形容词、副词和其它词性来确定分配给每个云元素的元素-排名因子;以及将所述元素-排名因子应用于对图形云中的每个字词元素已经确定的频率和复杂度云元素显著性排名。
在另一实施例中,所述过程可以进一步包括实现对包括字词、字词对、字词三元组和其它字词短语的云元素的图形加权,其中,柔和的颜色和较小的字体被用于排名较低的元素,并且较明亮的颜色和较大的字体方案用于排名较高的元素,其中基于元素排名的最突出的云元素以最大、最明亮、最明显的图形方案显示。在一个实施例中,当当云透镜滚动通过所述内容时,显示的分段是以下中的至少一个:连贯的,其中一个分段的结尾是下一个分段的开头;或者重叠的,其提供所得的图形云基于有效的图形云中描绘的递增地改变的云元素的集合的基本上连续的变换。
在另一个实施例中,所述过程可以进一步包括将云透镜定义的分段长度与云过滤器的排名准则进行组合以定义显示的分段内的云元素的密度。在一个实施例中,所述云过滤器可以包括将最高的排名分配给预定的关键词。在另一实施例中,预定的视觉处置可以被应用于关键词的显示。在一个实施例中,图形云中显示的每个元素可以与所述内容同步,由此选择显示的元素将引起包含选择的元素的内容的回放或显示。
在一个实施例中,所述过程的云过滤器部分包括:基于来自内容变换的包括自动语音识别(ASR)置信度分数和/或用于基于音频和视频的内容的其它的ASR度量的结果确定分配给每个云元素的元素-排名因子;以及将所述元素-排名因子应用于对图形云中的每个字词元素已经确定的云元素显著性排名。
附图说明
参照以下详细描述结合附图来描述本文中提供的实施例的方面和优点。在整个附图中,附图标记可以被重复使用以指示引用的元素之间的对应关系。提供附图是为了例示说明本文中描述的示例实施例,而非意图限制本公开的范围。
图1例示说明图形云***的示例流程图。
图2例示说明从本公开的教导导出的示例图形云。
图3例示说明从本公开的教导导出的示例非英语图形云。
图4例示说明示例云元素。
图5例示说明图形云的示例视频显示。
图6例示说明图形云的替代示例视频显示。
图7例示说明图形云的示例音频显示。
图8例示说明当内容被播放、审阅或获取时的图形云显示的示例时间排序。
具体实施方式
总体上,本文中描述的实施例是针对以下***:该***通过使用适当地配置的透镜并且应用各种各样的功能过滤器来创建内容的交互式图形表示,由于冗余、不相关和/或错误的内容的移除或掩蔽而导致内容的噪声较少、不太混乱的视图。特定内容的相关性由用户实时地确定,这允许该用户高效地获得价值。该价值可以是从内容提取总体含义、识别该内容的相关部分以用于更彻底的审阅、可视化移动通过内容的“滚动摘要”、或者基于各种各样的透镜和过滤器实施例的利用导出其它有用的信息集合。
要理解,一起工作来生成本文中公开的结果的各种元素的以下描述被实现为用数字电子产品和模拟电子产品、在处理器上执行的软件、和/或常见于电子装置(诸如台式计算机、膝上型计算机、智能电话、平板和其它类似装置)中的用户/接口显示能力的任何组合实例化的程序序列和/或逻辑结构。具体地说,本文中描述的过程可以被实现为可以是程控的计算机方法或数字逻辑方法的模块或元素,并且可以使用各种模拟和/或数字的分立的电路组件(晶体管、电阻器、电容器、电感器、二极管等)、可编程逻辑、微处理器、微控制器、专用集成电路或其它电路元件中的任何一个的组合来实现。被配置为存储计算机程序或计算机可执行指令的存储器可以连同分立的电路组件一起被实现来实现本文中描述的方法中的一种或多种方法。一般地,数字控制功能、数据获取、数据处理和图像显示/分析可以分布在一个或多个数字元件或处理器上,所述一个或多个数字元件或处理器可以被连接,有线地、无线地、和/或跨本地和/或非本地的网络。
术语表
■内容。内容可以包括各种多媒体源,包括但不限于基于音频、视频和文本的媒体。内容可以经由流传输源获得以供实时使用,或者内容可以已经获得以供使用。
■图形云。图形云是包括以用户友好的方式描绘的各种云元素(例如,字词、短语、图标、头像、表情符号等)的从内容导出的可视化,这些云元素基于定义和选择的云过滤器移除了不相关的、较低优先级或较低排名的元素。云过滤器和云透镜控制图形云中描绘的云元素的类型、数量和密度。在不同的实施例中并且对于选择的媒体类型,图形云变化表示显示给用户的内容随着时间或序列的改变,该时间段或序列长度可以变化,并且可以被分段或重叠。
■云分析。云分析是应用于源内容或其它基于源内容的变换的导出的内容的技术(例如,对经由自动语音识别从源音频提取的字词执行的分析)。示例技术包括自然语言处理、计算语言学分析、自动语言翻译、数字信号处理和许多其它技术。这些技术提取元素、形成新云元素的属性和/或关联、用于复合云元素的元素属性和/或元素关联。
■云元素。云元素通过某个级别的变换或分析从源内容导出,并且包括图形元素,举几个示例,诸如字词、字词短语、完整句子、图标、头像、表情符号,其表示所讲或所写的字词或短语、所表达的情感或情绪、讲话者或行动者的意图、语调或心情、导出的含义、讲话者或行动者标识、活动的手势,导出的调色板、或者可以通过源内容的分析导出的其它材料特性。复合云元素是云元素的集合,其基于链接该集合内的这些下级云元素的元素关联和元素属性构造。
■云过滤器。云过滤器对用户提供基于特定的输入参数和/或算法定义的试探来选择经由云分析从源材料提取的一个或多个云元素集合以用于消费的控制。云过滤器类型是大量的,举几个示例,包括元素频率(指定的云透镜参考或视图框架内的出现数量、或整个内容样本上的出现数量)、字词权重和/或复杂度(字母、音节等的数量)、句法(基于语法的、词性、关键词或术语提取、基于上下文的字词含义、句子边界等)、情感(高兴、悲伤、生气等)、以及动态范围(响度或电平变化)。云过滤器在它们的功能上不限于由云透镜定义的特定视图内定义的云元素。相反,云过滤器的范围可以“局部”于特定的云透镜视图,或者云过滤器的范围可以是在从选择的内容导出或提取的所有云元素上“全局的”。这使得云过滤器能够恰当地对整个(全局)内容样本中其它地方具有显著性的特定云元素按优先顺序排列(排名)。
■云透镜。云透镜将受控视图提供到内容中,影响给定可视化的图形云的看到的密度和倍率级别。在一些实施例中,云透镜定义内容的倍率级别,该倍率级别表示用于构造图形云的固定时间段或序列长度。云透镜考虑可能可显示的云元素的后续按优先顺序排列和排名来约束内容的量。云透镜控制要被用于显示的媒体样本的量或时间段。在基于文本的内容的情况下,云透镜控制要被用于云过滤器评估和排名的文本的量或内容序列长度(例如,字词、句子、段落、章节等的数量)。
■元素属性。云元素可以具有分配给它们的附加属性。例如,音频样本的转录将生成字词元素的集合,并且这些字词中的每一个可以被分配在该特定的上下文中对于该特定的字词适当的词性(例如,名词、代词、专有名词、形容词、动词、副词等),因为一些字词在不同的上下文中可以具有不同含义和附加属性。可以对音频或视频内容执行数字信号处理分析以确定音频的幅度随着一系列字词或时间段的变化,定义那些云元素的属性。
■元素关联。云元素可以与其它云元素具有关联。示例包括具有形容词属性的字词元素及其相关联的具有名词属性的字词元素。另一个示例包括可以引用相关联的字词、字词短语或句子(例如,疑问)的情感元素属性(“好奇”)。
■视觉噪声。视觉噪声涉及对于任何特定的内容源,导出的云元素(例如,字词、图标等)中的相对小的百分比对于给定用户视觉交互是有价值的。例如,正常的讲话速率为150至230字词每分钟(wpm)的一小时的音频或视频内容对于该媒体样本表示9,000至14,000个字词,并且来自该样本的重要(高排名)的字词或关键词的数量只不过是总数的小部分。在从该同一内容样本附加地提取云元素(例如,讲话者、讲话者改变、手势、情感等)的情况下,可能冗余的、无关的或错误的、因此没有用的图形元素的数量可以是显著的。
图形云构造
***100包括***流程图图1中描绘的主要的子***。源内容101被提交给云分析102,在该云分析102中,对输入内容执行变换分析,生成云元素、它们的元素属性和它们的与其它云元素的元素关联的完整集合。此外,复合云元素基于云元素以及任何元素属性和元素关联构造。
媒体的逻辑流和有价值的内容的提取遵循以下过程:
■源内容101被呈现给云分析模块102,该云分析模块102如果必要的话可以将内容变换为文本(例如,经由自动语音识别技术变换为字词、短语和句子),将内容变换为目标语言(例如,经由语言翻译技术变换为字词、短语和句子),或者从源内容提取各种各样的元数据(例如,词性、讲话者改变、音高增加等)。
■云分析模块生成的字词和其它元数据定义云元素、元素属性,或者元素关联。云分析模块可以被认为是提取源内容并且将源内容变换为这些基本单元以用于后续分析和处理的预过滤器。
■云分析102模块的输出被呈现给云透镜105,该云透镜105考虑最终的图形可视化来确定云元素的子集。仅云透镜定义的时间窗口或分段内的云元素可以被显示在图形云中。此外,焦点权重可以被应用于云元素,以与更靠近局部的透镜视图的边缘的云元素相比将较大的权重应用于云透镜的中心中的云元素。每个云元素的焦点权重对由云过滤器确定的最终的元素权重或排名做出贡献。
■集成在云分析内、手动或人工产生的转录可以利用自动语音识别(ASR)增强以对这些人工产生的解决方案生成非常准确的定时,从而确保任何类型的转录可以被准确地同步到媒体以用于后续的变换和分析来构造交互式图形云。
■具有相关联的焦点权重和其它元数据(例如,词性属性等)的云元素被呈现给云过滤器104,该云过滤器104应用规则以评估和建立每个云元素的排名或权重。云过滤器还基于元素属性和元素关联确定什么构成复合云元素,并且也将排名分配给复合云元素。云过滤器的输出是包括复合云元素的云元素的排名的、因此排序的列表,所有的云元素被呈现给元素显示103以用于构造图形云可视化。
■尽管云透镜105指定了用于供云过滤器104分析和排名的云元素的子集,但是云过滤器还保留对来自输入的源内容的云元素的完整集合的访问,以便进一步调谐分段或时间窗口内的云元素排名。所有的云元素的这个全局上下文允许云过滤器在确定特定的排名时评估特定的云元素的出现频率。例如,如果特定的字词在给定的云透镜分段中仅出现一次,但是在整个媒体样本中具有高的出现频率,则应用于该特定的字词云元素的相对权重将比仅考虑局部上下文时的相对权重高。
■图形云103包括由云透镜105限制的包括复合云元素的云元素的子集,其中另外的视觉强调被置于该集合内具有最高排名的元素上。
■图形云103考虑定义视觉组件的允许密度的云透镜105视图、定义阅读朝向(对于英语来说,它是从左到右和从上到下)的基础语言规则。例如,被确定为与内容相关(在云透镜视图内局部地、或者在整个内容样本上全局地)的字词可以以较明亮且较大的字体(对于文本)或者较大的图形元素(例如,图标、头像、表情符号等)显示。
■内容被同步使得来自图形云103的每个元素被绑定到特定的内容或媒***置以用于详细的审阅,并且在音频和视频的情况下,用于同步的回放。同步在两个方向上工作,因为用户可以访问音频波形、视频回放进度条、或基于文本的内容以在各种各样的时间排序且分段的图形云内编索引。用户还可以访问图形云元素以开始媒体的回放(对于音频和视频内容)、或者适当地编索引到基于文本的内容中。
云分析功能
以下是可以被应用于各种各样的内容源以生成引人注目的云元素(包括它们的元素属性和元素关联)的变换过程和分析技术的部分列表:
■自动语音识别(ASR)
■语言翻译
■自然语言处理(NLP)
■自然语言理解
■计算语言学(CL)
■认知神经科学
■认知计算
■人工智能(AI)
■数字信号处理(DSP)
■图像处理
■模式识别
■光学字符识别(OCR)
■光学字词识别
对这些分析技术的性能(例如,准确度)的限制在云元素的提取、形成和组成中起显著作用。例如,自动语音识别(ASR)***就转录与源内容匹配的准确程度被测量。显著地影响通过其字词错误率测量的ASR性能的条件包括讲话者的口音、串扰(多个讲话者同时说话)、背景噪声、记录的幅度电平、用于将模拟音频转换为数字格式的采样频率、特定的或定制的词汇、行话、技术或工业特定的术语等。现代的ASR***生成置信度或准确度分数作为生成的输出信息的一部分,并且这些置信度分数仍作为所得的元素云的属性,并且影响云过滤器生成的显著性排名。
云透镜、窗口、序列、透视和密度
云透镜将特定视图提供到媒体中,将特定倍率级别定义到整个源内容中。完全扩大云透镜允许用户查看整个内容样本的图形云(例如,整个90分钟视频的单个图形云)。通过云透镜的倍率允许用户查看仅表示整个内容样本的一部分或分段的图形云。这些分段可以是任何大小。另外的分段可以是连贯的,暗示一个分段的结尾是下一个分段的开头。或者,分段可以是重叠的,允许所得的图形云基于有效显示的图形云中描绘的递增地改变的云元素的集合的几乎连续的变换。
组合由云透镜定义的倍率设置与由云过滤器定义的复杂度和控制,并且指定的分段内的云元素的“密度”被定义。这个级别的控制允许用户确定在任何给定时间多少内容正在被显示,从而针对每个特定的用例呈现适当级别的细节或相关性。
云过滤器、眼注视、浏览速度和阅读速度
用于构造图形云和云过滤器内使用的元素-排名算法的显著考虑是人眼在单次注视中可以看见有限数量的字词,并且一些研究表明对于大多数人,该眼注视过程的上界通常是三个字词,尽管该限值基于人的视觉跨度和词汇而变化。因此,有益的是,使重要的字词短语长度保持有限,并且维护或开发元素属性和关联,允许字词对(元素对)和字词三元组(元素三元组)在这些在特定的云过滤器的设计内排名足够高时被显示在图形云中。在由云透镜定义的一些视图中,云过滤器将仅显示分离的云元素。但是当云透镜充分地扩展视图时,存在来自被云过滤器排名的复合云元素的包括的对理解和价值的显著、积极的影响。
理解人类感知和眼注视的影响帮助设计有效的云过滤器,因为图形云的目标是高效地扫描相关的元素群集的能力,其中相关性取决于该用户的特定需要。维护元素关联并且显示适合于人能够立即查看的界限的正确数量的元素提高了辨识速度和解读速度。利用本文中公开的技术,利用用于最佳眼跟踪的适当视觉间隔、并且利用在单次眼注视中阅读多个元素(字词或其它元素类型)的价值,显著降低视觉噪声(即,视觉元素混乱)可以导致用户从内容提取价值的效率更高。
经由频率、复杂度和语法导出的属性的云过滤器实施例
代表性云过滤器包括跟踪从各种各样的分析导出的各种参数。示例云过滤器对于基于文本的内容或从其它内容源导出的文本,包括字词复杂度和频率确定以及一阶基于语法的分析。从这些过程中的每一个,图形云中的每个元素被给予元素-排名。从该排名,构造突出从内容提取的更相关的元素的用户显示。
可以通过确定特定的图形云分段内或整个媒体样本上的每个字词和字词短语的出现频率和字词复杂度来构造样本字词-字词-短语-元素-排名分析。字词复杂度可以像组成特定字词的字母或音节的数量的计数那样简单。元素-排名与给定元素的复杂度或该元素的出现频率成正比。任何过滤器度量可以被认为仅“局部”于分段,或者如果它涉及在整个媒体样本上分析的内容,则是“全局的”。
可以对文本内容执行一阶基于语法的分析以确定词性。描述可以用于构造云过滤器要使用的适当的云元素的示例算法:
■对文本进行分析以确定词性,对于英语来说,包括:名词、动词、冠词、形容词、介词、代词、副词、连词和感叹词。广泛的语言学工作提供许多更多的单独的词性。该分析对于其它语言也是不同的,所以语言特定的词性的确定与一种类型的云过滤器相关。
■基于词性将元素-排名因子添加到每个字词。例如,对于英语,名词通常是每个句子的核心,这样,当与其它词性的元素-排名相比时,应用的元素-排名递增。该词性排名将是基于云分析的输出定义的特定字词的属性。
■词性排名对于每个词性是不同的,并且被按优先顺序排列。对于英语,以下是从最高到最低的一个按优先顺序排列的次序:专有名词、名词、动词、形容词、副词、其它词性。这些属性在云分析期间定义,并且被用于云过滤器进行的元素排名中。
■以相同的方式,词性可以提供增补对象的属性,其它词性可以提供增补正被采取的动作的属性、另一属性、或还有的其它词性。对于英语,这些是副词,并且它们修饰形容词、动词、其它副词或其它字词组。这些“副词”词性之间的关联的确定在构造复合云元素及其可视化中可以是有用的。
■将属性-排名因子应用于已经对图形云中的每个云元素确定的频率和复杂度排名。
■基于云透镜,确定到内容中的有效窗口,确定要显示的云元素的密度。基于云过滤器,确定元素-排名和导出的组件云元素,并且构造视觉图形云。
■基于对于排名高的云元素的关键元素关联,即使当该相关联的元素的元素-排名对于给定的显示不是足够高时,相关联的元素也可以被显示。
■为了支持显示的云元素的增强的视觉理解,实现这些元素的图形加权,包括以下元素类型:显示的字词、字词对、字词三元组和任何其它的字词短语。例如,与用于形容词和副词涉及的名词和动词的较明亮的颜色和较大的字体方案相比,柔和的颜色和较小的字体被用于形容词和副词。基于元素-排名的最突出的云元素以最大、最明亮、最明显的图形方案显示。
■对于优先顺序高的字词元素的另外的视觉增强是在特定字词内具有增加或减小的字体大小以反映其它信号处理度量。例如,增加或减小的音高可以确定特定字词或短语内的字体大小改变。
以下句子展示了理解核心语法词性以用于构造云元素(其继而基于特定的过滤器参数被适当地并且可能不同地显示)的价值。云元素基于云过滤器的性质和针对给定的可视化就“元素密度”而言对***的输入而显示。以下英语句子描绘了对于构造复合云元素和供云过滤器消费该云元素有价值的内容:
John Williams could not complete the task
because of his tremendously heavy workload.
从以上参考句子,名词是“John”、“Williams”、“task”和“workload”。这样,对于示例云过滤波器实施例,每个名词将具有高元素-排名。动词“complete”在排名或重要性的水平上次之。副词“tremendously”和形容词“heavy”的排名相同,并且低于名词和动词。然而,每个具有关联,“tremendously”与“heavy”关联,并且“heavy”与“workload”关联。这些关联形成由与短语“tremendously heavy workload”相关联的三个下级云元素组成的复合云元素。
这样,复合云元素“tremendously heavy workload”在一个过滤器实施例中,在给定云透镜状态的情况下,可以一起显示,以生成与单个重要的名词“workload”相比对于用户更有意义的显示。此外,眼注视由人类对于内容的给定的瞬间查看通常可以看见多个字词的事实定义。这样,用户可以可能在单次查看(眼注视)中解读“tremendously heavyworkload”,从而提高显示的相关性。
该算法可以以大量方式扩展,因为越来越多的分析功能被应用于内容以创建更多的云元素、以及对应的元素属性和元素关联。当新的元素类型(例如,手势、情感、语调、意图、幅度等)被构造时,另外的扩展可以被应用,增添图形云可视化的丰富性。
图形云组成
图形云103在由用户选择的内容的给定序列或时间段上构造。图2了描绘从样本内容导出的图形云表示的变换和图形显示103。用于该示例的所得的图形云描绘了云元素(这些云元素是字词、短语、图标、选择的人物角色或头像、情感状态(表情符号))、以及将单个云元素组合成复合云元素(例如,字词对、字词三元组等)的元素属性和元素关联、以及由云过滤器定义的适当地对云元素进行排名的云属性(例如,专有名词)。
图2描绘了从以下示例文本构造的图形云:
“John Williams could not
complete the task because of his
tremendously heavy workload.
This is another example of the
unique challenges for entry-
level employees,leading to low
job satsfaction.
His supervisor.Lauren Banks.
provides guidance.yet her
workload is ezxremeroo.
Manage ment needs to review
work assignments given overall
sress levelsl”
考虑该时间或序列,对于内容的倍率或缩放的级别。例如,倍率或缩放级别可以表示60分钟音频或视频样本的5分钟。独立于该“缩放级别”的是特定图形云的字词密度,其全部由云透镜和云过滤器配置和控制。即,对于给定的媒体分段(即,60分钟媒体文件的5分钟),在该分段内显示的元素(例如,字词)的数量可以变化,定义该给定图形云视图的元素密度。
图形云翻译
语言翻译解决方案可以被应用于源内容,自动语音识别***的输出被应用于源音频或视频内容或者被应用于输入音频或视频内容的输入的有源转录。语言翻译解决方案的输出然后被应用于其它云分析模块,包括自然语言处理的使用以便确定复合云元素内的适当的字词次序。图3中描绘了该过程的输出,其示出了图形云显示103,利用适当的西班牙语翻译和字词次序突出语言翻译应用。
图3描绘了从以下翻译的示例文本构造的图形云:
“John Williams no pudo completar
la tarea de bido a su carga de trabajo
tremendamente pesada.
Este es otro ejemplo de los desafios
únicos para los empleados de nivel
inicial,que conduce a una baja
satisfacción en el trabajo.
Su supervisora,Lauren Banks,
proporciona orientacion,pero su
carga de trabajo es extrema también
asignaciones de trabajo dados los
niveles generales de estrés!”
输入源可以逐字词、短语或句子地翻译,尽管当限制用于翻译的输入内容时一些上下文可能丢失。更全面的方法是对内容全体翻译,对输入的文本分段生成完整的转录,如图中所示。其它云分析技术是语言独立的,包括提取,举几个示例,讲话速率、语音电平、动态范围、讲话者标识的许多数字信号处理技术。
应用于翻译的文本和输入的源内容的过程生成云元素、以及它们的元素属性和元素关联的完整集合。复合云元素和单个云元素的所得的集合然后被提交给云透镜和云过滤器以生成翻译的图形云。
用户供应的关键词和触发
替代实施例可以包括预设或提供与要被处理的内容或应用相关的关键词的列表。例如,演讲者可以对该演讲或者对教育术语提供关键词,这些关键词可以被提供以用于处理相关联的图形云的变换和创建中使用的每个视频。附加的示例可以包括实时流传输应用,其中内容正被针对各种不同的应用(例如,安全监视应用)监视。对于该流传输示例中的每个独特的应用,用于该应用的“触发”字词可以不同,并且可以被提供给***以修改云过滤器的元素-排名以及随后的所得的实时图形云。另外,内容的消费者可以将相关或重要的关键词的列表作为他们的账户配置文件的一部分维护,从而允许自动调整关键词内容以用于产生图形云。
提供给***的关键词可以可展示地使所得的图形云的组成变形,因为这些关键词按照定义在构造的图形云内将排名最高。通过媒体块扫描图形云也可以通过对这些关键词的特殊视觉处置而被进一步增强,进一步增强处理媒体内容的效率。注意,扫描或浏览文本比阅读或讲出言语内容快四到五倍,所以考虑到正被扫描的文本内容减少,图形云扫描特征增添了该倍数。因此,总效率倍数可以高达10倍或更多倍,以用于辨识重要或期望的媒体分段或者用于视觉地扫描内容的总体含义、本质或主旨。
集成到***中的编辑距离可以增强用户定义的关键词的使用。经由自动手段(例如,ASR)生成的转录可以具有较低的字词准确度,并且具有预定阈值(即,关于所需的字符串操作的数量的阈值)的编辑距离可以被用于自动地用可能的关键词替换错误的ASR输出,允许在所得的图形云中的该关键词的显示(或其它动作)。
非基于字词的触发
伴随云分析的公开技术具有产生包括情感、手势、音频标记等的引人注目且有趣的云元素的潜能。扩展用户供应的关键词的构思是允许用户从源内容内指示与它们的可视化需要和体验相关的元素的构思。例如,对音频样本中存在大的音频电平的改变(指示参与者之间可能正在进行对话)的区域扫描图形云。
图形云组件图
图4描绘了包括云元素(400a-400j)并且包括复合云元素(400b和400f)(它们又是云元素以及相关联的云元素的集合)的代表性图形云。基于对源媒体内容(例如,音频、视频、文本等)执行的各种各样的分析,每个云元素可以具有一个到多个元素属性和一个到多个元素关联。如所描绘的,元素属性和元素关联支持复合云元素的形成。
除了用于云过滤器和云透镜的定义对于内容的给定序列或时间段在给定图形云内要显示的云元素的密度的控制参数之外,复合云元素内的云元素的数量还取决于元素关联的重要性。这样,复合云元素在给定图形云中可能完全不被描绘,或者可能仅显示主要的、独立的云元素,或者可能显示所有的云元素。
示例显示——视频视图1
图5描绘了视频显示实施例的具有主组件中的每一个的示例可视化(图形云103)。视频窗格500包含视频播放器501,该视频播放器501是在web浏览器内使用以显示视频内容的类型(例如,YouTube或Vimeo视频)。在该视频窗格500中,时间从左走到右前进。对于该实施例,随着视频播放,图形云103可视化滚动以保持与视频内容内正被显示的内容相关和同步。
左窗格显示针对视频的时间线上的选择的视图构造的图形云103,并且图形云元素与右视频窗格500中描绘的视频内容同步。由图形云视图表示的对应的时间窗口也在视频窗格中通过虚线矩形502示出。视频窗格虚线区域的大小由云透镜105定义,其中设置由用户相对于内容视图倍率的级别控制。
其它实施例可以被扩展为在音频和视频回放内包括标签和标记以允许用户对通过扫描图形云、查看视频或者两者已经辨识的位置进行注释(利用标签)或者标记。
示例显示——视频视图2
图6描绘了适合于移动视频视图的类型的示例图形云103。视频播放器501在显示的顶部示出,接着是用于位置标记和注释标签的部分。视图的下部是显示虚线矩形502中描绘的构造的图形云的对应时间的图形云。
音频显示(视图)
图7描绘了示例图形云显示103实现,其中图形云显示在一个或多个音频波形700上方。与移动和web视频视图一样,虚线矩形显示502被描绘在波形上以示出给定的图形云显示的时间段。
时间段和字词密度
图形云基于用户已选择如何配置他们的体验在内容的选择的序列或某个时间段(窗口)上产生。存在随着用户滚动通过媒体内容而构造每个特定的图形云的多种方式。图8描绘了两个这样的时间分段定义,顺次的和重叠的。给定分段或窗口的持续时间由用户已选择(经由云透镜)的倍率或“缩放”级别定义。例如,用户可以对于每个分段的图形云选择查看5分钟或8分钟的音频。对于该特定的5分钟或8分钟分段构造的图形云将表示基于元素-排名算法的该时间段的转录。
新构造的图形云可以被构造并全体显示(顺次的分段),或者可以基于在每个特定的图形云内发生的改变递增地改变(重叠的分段)。图形上有趣且引人注目的显示可以用于随着用户移动通过媒体(通过滚动通过时间相关联的图形云,或者通过如现今的标准音频和视频播放器典型的那样滚动通过媒体索引)而使这些改变动画化。
根据实施例,本文中描述的过程中的任何一个的某些动作、事件或功能可以按不同的顺序执行,可以被添加、被合并或者一起被省去(例如,并非所有的描述的动作或事件对于所述过程的实施都是必需的)。而且,在某些实施例中,动作或事件可以被同时执行,例如,通过多线程处理、中断处理、或多个处理器或处理器核、或者在其它并行架构上,而不是顺序地。
结合本文中公开的实施例描述的各种说明性逻辑块、模块和过程步骤可以被实现为电子硬件、计算机软件或这二者的组合。为了清楚地例示说明硬件和软件的这个互换性,各种说明性组件、块、模块和步骤已经在上面就它们的功能性被概括性地描述。这样的功能性是被实现为硬件、还是软件取决于特定的应用和施加于整个***的设计约束。所描述的功能性可以针对每个特定的应用、以各种各样的方式实现,但是这样的实现决策不应被解释为引起偏离本公开的范围。
结合本文中公开的实施例描述的各种说明性逻辑块和模块可以由被设计为执行本文中描述的功能的机器(诸如被配置特定指令的处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或它们的任何组合)实现或执行。处理器可以是微处理器,但是在替代方案中,处理器可以是控制器、微控制器或状态机、或它们的组合等。处理器还可以被实现为计算装置的组合,例如,DSP和微处理器、多个微处理器、与DSP核结合的一个或多个微处理器或任何其它这样的配置的组合。
结合本文中描述的实施例描述的方法或过程的元素可以直接用硬件、用处理器执行的软件模块、或者用这两个的组合来实施。软件模块可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬件、可移除盘、CD-ROM、或本领域中已知的任何其它形式的计算机可读存储介质中。示例性存储介质可以耦合到处理器,以使得处理器可以对存储介质读写信息。在替代方案中,存储介质可以与处理器是一个整体。处理器和存储介质可以驻留在ASIC中。软件模块可以包括计算机可执行指令,这些计算机可执行指令使硬件处理器执行这些计算机可执行指令。
本文中使用的条件语言(诸如,除了别的之外,“能够”、“可以”、“例如”等)除非另有具体陈述或者在使用的上下文内另有理解,否则一般意图传达某些实施例包括,而其它实施例不包括,某些特征、元件和/或状态。因此,这样的条件语言一般并不意图暗示特征、元件和/或状态是一个或多个实施例无论如何都必需的,或者一个或多个实施例一定包括用于在有或没有创作者输入或提示的情况下决定这些特征、元件和/或状态在任何特定的实施例中是被包括在内、还是将被执行的逻辑。术语“包括”、“包含”、“具有”、“涉及”等是同义的,并且被以开放式的方式包容性地使用,并且不排除附加的元件、特征、动作、操作等。此外,术语“或”是以其包容性的含义(而不是其排他性的含义)使用的,以使得当被用于例如连接元件列表时,术语“或”意指该列表中的元件中的一个、一些或所有元素。
反意连接词语言(诸如短语“X、Y或Z中的至少一个”)除非另有具体陈述,否则利用一般使用的上下文被理解为呈现项、术语等可以是X、Y或Z或它们的任何组合(例如,X、Y和/或Z)。因此,这样的反意连接词语言一般并不意图,并且不应,暗示某些实施例需要X中的至少一个、Y中的至少一个或Z中的至少一个每个都存在。
术语“大约”或“大致”等是同义的,并且被用于指示用该术语修饰的值具有与它相关联的理解范围,其中该范围可以是±20%、±15%、±10%、±5%或±1%。术语“基本上”被用于指示结果(例如,测量值)接近于目标值,其中,接近可以意指例如结果在该值的80%内、在该值的90%内、在该值的95%内或者在该值的99%内。
除非另有明确陈述,否则诸如“一个”或“一种”的冠词一般应被解释为包括一个或多个描述的项。因此,诸如“被配置为……的装置”的短语意图包括一个或多个记载的装置。这样的一个或多个记载的装置也可以被共同配置为执行陈述的记载。例如,“被配置为实现记载A、B和C的处理器”可以包括被配置为实现记载A的第一处理器,该第一处理器与被配置为实现记载B和C的第二处理器结合工作。
虽然以上详细描述已经示出、描述和指出应用于说明性实施例的新颖的特征,但是将理解在不脱离本公开的精神的情况下,可以做出例示说明的过程的在形式和细节上的各种省略、替换和改变。如将认识到的,本文中描述的某些实施例可以在不提供本文中阐述的所有的特征和益处的形式内实施,因为一些特征可以被与其它特征分开使用或实施。落在权利要求的等同的含义和范围内的所有的改变都要包含在它们的范围内。
Claims (21)
1.一种用于从内容源提取并显示相关信息的过程,包括:
从实时流或预先记录的储存器中的至少一个获取内容;
指定云透镜,所述云透镜定义分段持续时间或长度中的至少一个,其中,所述分段包括总共数量的时间或序列排序的云元素中的至少一个的全部或子集中的至少一个;
应用至少一个云过滤器以对与给定的分段相关联的每个云元素的显著性水平进行排名;
基于选择的预定的云元素密度定义针对给定的分段要在图形云中使用的云元素的数量;
构造至少一个图形云,所述图形云包括从所述内容导出的、由过滤的云元素组成的可视化;以及,
使所述云透镜滚动通过分段以显示显著的云元素的图形云。
2.根据权利要求1所述的过程,其中,云元素通过变换或分析中的至少一个被从源内容导出,并且包括图形元素中的至少一个,所述图形元素包括字词、字词短语、完整的句子、图标、头像、表情符号,其表示所讲或所写中的至少一个的字词或短语、所表达的情感、讲话者的意图、讲话者的语调、讲话者的音调变化、讲话者的心情、讲话者改变、讲话者标识、对象标识、导出的含义、活动的手势、导出的调色板、或者可以通过源内容或变换内容的变换和分析导出的其它材料特性。
3.根据权利要求1所述的过程,其中,执行滚动通过分段,其中,分段由连贯或者重叠的云元素组定义。
4.根据权利要求1所述的过程,其中,云过滤器包括以下中的至少一个:云元素频率,其包括指定的云透镜分段内的出现数量、整个内容样本上的出现数量;字词权重;复杂度,其包括字母、音节等的数量;句法,其包括基于语法的、词性、关键词、术语提取、基于上下文的字词含义、句子边界;情感;或者音频或视频幅度的改变,其包括响度或电平变化。
5.根据权利要求1所述的过程,其中,所述内容包括音频、视频或文本中的至少一个。
6.根据权利要求5所述的过程,其中,所述内容是文本、音频和视频中的至少一个,并且音频/视频通过使用转录、自动转录或这两者的组合而被变换为文本。
7.根据权利要求1所述的过程,其中,变换和分析确定云元素的元素属性或元素关联中的至少一个,所述元素属性或元素关联支持云元素的包括词性标签排名的云过滤器排名,或者当存在时可以形成将多个下级云元素组合成单个复合云元素的基础。
8.根据权利要求7所述的过程,其中,文本云元素包括元素属性中的至少一个,所述元素属性包括词性标签,所述词性标签对于英语包括名词、专有名词、形容词、动词、副词、代词、介词、连词、感叹词、或者冠词。
9.根据权利要求7所述的过程,其中,文本云元素包括基于以下中的至少一个的元素关联中的至少一个:包括名词、形容词或副词的词性属性;及其相关联的具有包括代词、名词或形容词的对应属性的字词云元素。
10.根据权利要求7所述的过程,其中,提取基于语法的组成部分的句法分析被应用于变换输出文本,所述变换输出文本包括至少一个词性、句子组成部分的解析、以及断句,所述词性包括名词、动词、形容词和其它词性,其中,句法分析包括跟踪间接引用,包括基于词性的关联,从而定义元素属性和元素关联。
11.根据权利要求7所述的过程,其中,提取单个字词的含义的句法分析被应用,包括以下中的至少一个:识别专有名称;应用光学字符识别(OCR)以确定对应的文本、或包括关系提取的字词之间的关联,从而定义元素属性和元素关联。
12.根据权利要求6所述的过程,其中,数字信号处理被应用以生成包括以下中的至少一个的度量:信号幅度、包括语音电平和语音电平范围(对于音频和视频)的动态范围、视觉手势(视频)、讲话者标识(音频和视频)、讲话者改变(音频和视频)、讲话者语调、讲话者音调变化、个人标识(音频和视频)、颜色方案(视频)、音高变化(音频和视频)以及讲话速率(音频和视频)。
13.根据权利要求6所述的过程,其中,情感分析被应用以估计情感状态。
14.根据权利要求7所述的过程,其中,所述云过滤器包括:
基于来自内容变换和自然语言处理分析的结果、从最高到最低按优先顺序排列的词性元素属性:专有名词、名词、动词、形容词、副词和其它词性来确定分配给每个云元素的元素-排名因子;
将所述元素-排名因子应用于对图形云中的每个字词元素已经确定的云元素显著性排名。
15.根据权利要求7所述的过程,进一步包括实现对包括字词、字词对、字词三元组和其它字词短语的云元素的图形加权,其中,柔和的颜色和较小的字体被用于排名较低的元素,并且较明亮的颜色和较大的字体方案用于排名较高的元素,其中基于元素排名的最突出的云元素以最大、最明亮、最明显的图形方案显示。
16.根据权利要求1所述的过程,其中,当云透镜滚动通过所述内容时,显示的分段是以下中的至少一个:连贯的,其中一个分段的结尾是下一个分段的开头;或者重叠的,其提供所得的图形云基于有效的图形云中描绘的递增地改变的云元素的集合的基本上连续的变换。
17.根据权利要求1所述的过程,进一步包括将云透镜定义的分段长度与云过滤器的排名准则进行组合以定义显示的分段内的云元素的密度被定义。
18.根据权利要求7所述的过程,其中,所述云过滤器包括将最高的排名分配给预定的关键词。
19.根据权利要求18所述的过程,其中,预定的视觉处置被应用于关键词的显示。
20.根据权利要求1所述的过程,其中,图形云中显示的每个元素与所述内容同步,由此选择显示的元素将引起包含选择的元素的内容的回放或显示。
21.根据权利要求7所述的过程,其中,所述过程的云过滤器部分包括:
基于来自内容变换的包括自动语音识别(ASR)置信度分数和/或用于基于音频和视频的内容的其它的ASR度量的结果确定分配给每个云元素的元素-排名因子;
将所述元素-排名因子应用于对图形云中的每个字词元素已经确定的云元素显著性排名。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762588336P | 2017-11-18 | 2017-11-18 | |
US62/588,336 | 2017-11-18 | ||
PCT/US2018/061096 WO2019099549A1 (en) | 2017-11-18 | 2018-11-14 | Interactive representation of content for relevance detection and review |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111615696A true CN111615696A (zh) | 2020-09-01 |
CN111615696B CN111615696B (zh) | 2024-07-02 |
Family
ID=66532520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880086990.1A Active CN111615696B (zh) | 2017-11-18 | 2018-11-14 | 用于相关性检测和审阅的内容的交互式表示 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20190156826A1 (zh) |
EP (1) | EP3710954A1 (zh) |
JP (1) | JP6956337B2 (zh) |
CN (1) | CN111615696B (zh) |
WO (1) | WO2019099549A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11222076B2 (en) * | 2017-05-31 | 2022-01-11 | Microsoft Technology Licensing, Llc | Data set state visualization comparison lock |
US10581945B2 (en) * | 2017-08-28 | 2020-03-03 | Banjo, Inc. | Detecting an event from signal data |
US11025693B2 (en) | 2017-08-28 | 2021-06-01 | Banjo, Inc. | Event detection from signal data removing private information |
US10313413B2 (en) | 2017-08-28 | 2019-06-04 | Banjo, Inc. | Detecting events from ingested communication signals |
US10671808B2 (en) * | 2017-11-06 | 2020-06-02 | International Business Machines Corporation | Pronoun mapping for sub-context rendering |
US11270071B2 (en) * | 2017-12-28 | 2022-03-08 | Comcast Cable Communications, Llc | Language-based content recommendations using closed captions |
US10585724B2 (en) | 2018-04-13 | 2020-03-10 | Banjo, Inc. | Notifying entities of relevant events |
US11423796B2 (en) * | 2018-04-04 | 2022-08-23 | Shailaja Jayashankar | Interactive feedback based evaluation using multiple word cloud |
KR102608953B1 (ko) * | 2018-09-06 | 2023-12-04 | 삼성전자주식회사 | 전자 장치 및 그의 제어방법 |
KR102657519B1 (ko) | 2019-02-08 | 2024-04-15 | 삼성전자주식회사 | 음성을 기반으로 그래픽 데이터를 제공하는 전자 장치 및 그의 동작 방법 |
US11176332B2 (en) * | 2019-08-08 | 2021-11-16 | International Business Machines Corporation | Linking contextual information to text in time dependent media |
KR102598496B1 (ko) * | 2020-02-28 | 2023-11-03 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 이모티콘 패키지 생성 방법, 장치, 설비 및 매체 |
KR102560276B1 (ko) * | 2021-02-17 | 2023-07-26 | 연세대학교 산학협력단 | 이미지 검색 기반 감성 색채 배색 추천 장치 및 방법 |
CN113742501A (zh) * | 2021-08-31 | 2021-12-03 | 北京百度网讯科技有限公司 | 一种信息提取方法、装置、设备、及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120179465A1 (en) * | 2011-01-10 | 2012-07-12 | International Business Machines Corporation | Real time generation of audio content summaries |
CA2747153A1 (en) * | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
US20130332450A1 (en) * | 2012-06-11 | 2013-12-12 | International Business Machines Corporation | System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources |
US20160124940A1 (en) * | 2014-11-03 | 2016-05-05 | International Business Machines Corporation | Facilitating a meeting using graphical text analysis |
US20170125014A1 (en) * | 2015-10-30 | 2017-05-04 | Mcafee, Inc. | Trusted speech transcription |
US20170148223A1 (en) * | 2014-10-31 | 2017-05-25 | Fyusion, Inc. | Real-time mobile device capture and generation of ar/vr content |
US20170220603A1 (en) * | 2013-03-15 | 2017-08-03 | Locus Analytics Llc | Proximity search and navigation for functional information systems |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4446728B2 (ja) * | 2002-12-17 | 2010-04-07 | 株式会社リコー | 複数のマルチメディア文書に格納された情報の表示法 |
US20080152237A1 (en) * | 2006-12-21 | 2008-06-26 | Sinha Vibha S | Data Visualization Device and Method |
US20080231644A1 (en) * | 2007-03-20 | 2008-09-25 | Ronny Lempel | Method and system for navigation of text |
US8407049B2 (en) * | 2008-04-23 | 2013-03-26 | Cogi, Inc. | Systems and methods for conversation enhancement |
EP2136301A1 (en) * | 2008-06-20 | 2009-12-23 | NTT DoCoMo, Inc. | Method and apparatus for visualising a tag cloud |
US20100070860A1 (en) * | 2008-09-15 | 2010-03-18 | International Business Machines Corporation | Animated cloud tags derived from deep tagging |
US9111582B2 (en) * | 2009-08-03 | 2015-08-18 | Adobe Systems Incorporated | Methods and systems for previewing content with a dynamic tag cloud |
US8958685B2 (en) * | 2009-08-17 | 2015-02-17 | Avaya Inc. | Word cloud audio navigation |
US9262520B2 (en) * | 2009-11-10 | 2016-02-16 | Primal Fusion Inc. | System, method and computer program for creating and manipulating data structures using an interactive graphical interface |
US8996451B2 (en) * | 2010-03-23 | 2015-03-31 | Nokia Corporation | Method and apparatus for determining an analysis chronicle |
US8892554B2 (en) * | 2011-05-23 | 2014-11-18 | International Business Machines Corporation | Automatic word-cloud generation |
US9064009B2 (en) * | 2012-03-28 | 2015-06-23 | Hewlett-Packard Development Company, L.P. | Attribute cloud |
US20130297600A1 (en) * | 2012-05-04 | 2013-11-07 | Thierry Charles Hubert | Method and system for chronological tag correlation and animation |
US9195635B2 (en) * | 2012-07-13 | 2015-11-24 | International Business Machines Corporation | Temporal topic segmentation and keyword selection for text visualization |
KR20140059591A (ko) * | 2012-11-08 | 2014-05-16 | 한국전자통신연구원 | 소셜 미디어 기반 콘텐츠 추천 장치 및 방법 |
US9020808B2 (en) * | 2013-02-11 | 2015-04-28 | Appsense Limited | Document summarization using noun and sentence ranking |
KR102065045B1 (ko) * | 2013-03-15 | 2020-01-10 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어 방법 |
US9727371B2 (en) * | 2013-11-22 | 2017-08-08 | Decooda International, Inc. | Emotion processing systems and methods |
US9753998B2 (en) * | 2014-04-15 | 2017-09-05 | International Business Machines Corporation | Presenting a trusted tag cloud |
US9672865B2 (en) * | 2014-05-30 | 2017-06-06 | Rovi Guides, Inc. | Systems and methods for temporal visualization of media asset content |
US10606876B2 (en) * | 2014-06-06 | 2020-03-31 | Ent. Services Development Corporation Lp | Topic recommendation |
EP3254453B1 (en) * | 2015-02-03 | 2019-05-08 | Dolby Laboratories Licensing Corporation | Conference segmentation based on conversational dynamics |
US10133793B2 (en) * | 2015-03-11 | 2018-11-20 | Sap Se | Tag cloud visualization and/or filter for large data volumes |
PH12016000208A1 (en) * | 2015-06-29 | 2017-12-18 | Accenture Global Services Ltd | Method and system for parsing and aggregating unstructured data objects |
US10140646B2 (en) * | 2015-09-04 | 2018-11-27 | Walmart Apollo, Llc | System and method for analyzing features in product reviews and displaying the results |
US20170076319A1 (en) * | 2015-09-15 | 2017-03-16 | Caroline BALLARD | Method and System for Informing Content with Data |
US20170083620A1 (en) * | 2015-09-18 | 2017-03-23 | Sap Se | Techniques for Exploring Media Content |
US10242094B2 (en) * | 2016-03-18 | 2019-03-26 | International Business Machines Corporation | Generating word clouds |
US20170371496A1 (en) * | 2016-06-22 | 2017-12-28 | Fuji Xerox Co., Ltd. | Rapidly skimmable presentations of web meeting recordings |
-
2018
- 2018-11-14 CN CN201880086990.1A patent/CN111615696B/zh active Active
- 2018-11-14 EP EP18815870.3A patent/EP3710954A1/en active Pending
- 2018-11-14 JP JP2020545235A patent/JP6956337B2/ja active Active
- 2018-11-14 WO PCT/US2018/061096 patent/WO2019099549A1/en active Application Filing
- 2018-11-14 US US16/191,151 patent/US20190156826A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120179465A1 (en) * | 2011-01-10 | 2012-07-12 | International Business Machines Corporation | Real time generation of audio content summaries |
CA2747153A1 (en) * | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
US20130332450A1 (en) * | 2012-06-11 | 2013-12-12 | International Business Machines Corporation | System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources |
US20170220603A1 (en) * | 2013-03-15 | 2017-08-03 | Locus Analytics Llc | Proximity search and navigation for functional information systems |
US20170148223A1 (en) * | 2014-10-31 | 2017-05-25 | Fyusion, Inc. | Real-time mobile device capture and generation of ar/vr content |
US20160124940A1 (en) * | 2014-11-03 | 2016-05-05 | International Business Machines Corporation | Facilitating a meeting using graphical text analysis |
US20170125014A1 (en) * | 2015-10-30 | 2017-05-04 | Mcafee, Inc. | Trusted speech transcription |
Also Published As
Publication number | Publication date |
---|---|
JP2021503682A (ja) | 2021-02-12 |
US20190156826A1 (en) | 2019-05-23 |
WO2019099549A1 (en) | 2019-05-23 |
CN111615696B (zh) | 2024-07-02 |
EP3710954A1 (en) | 2020-09-23 |
JP6956337B2 (ja) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111615696B (zh) | 用于相关性检测和审阅的内容的交互式表示 | |
Wagner et al. | Experimental and theoretical advances in prosody: A review | |
US9548052B2 (en) | Ebook interaction using speech recognition | |
Cole et al. | Crowd-sourcing prosodic annotation | |
US20200151220A1 (en) | Interactive representation of content for relevance detection and review | |
Tyler | Expanding and mapping the indexical field: Rising pitch, the uptalk stereotype, and perceptual variation | |
US20220121712A1 (en) | Interactive representation of content for relevance detection and review | |
JP2002502066A (ja) | テキストプロセッサ | |
Moore et al. | Word-level emotion recognition using high-level features | |
Campbell | Conversational speech synthesis and the need for some laughter | |
Boudin et al. | A multimodal model for predicting conversational feedbacks | |
JP2013025648A (ja) | 対話装置、対話方法および対話プログラム | |
Tóth et al. | Speech emotion perception by human and machine | |
Den Ouden et al. | Prosodic realizations of global and local structure and rhetorical relations in read aloud news reports | |
Pessanha et al. | A computational look at oral history archives | |
Alam et al. | Can we detect speakers' empathy?: A real-life case study | |
Kubat et al. | Totalrecall: visualization and semi-automatic annotation of very large audio-visual corpora. | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
Dahmani et al. | Natural Arabic language resources for emotion recognition in Algerian dialect | |
Kim et al. | Visible nuances: A caption system to visualize paralinguistic speech cues for deaf and hard-of-hearing individuals | |
Alm | The role of affect in the computational modeling of natural language | |
San-Segundo et al. | Proposing a speech to gesture translation architecture for Spanish deaf people | |
CN110457691A (zh) | 基于剧本角色的情感曲线分析方法和装置 | |
Smid et al. | Autonomous speaker agent | |
Campbell | On the structure of spoken language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |