CN114625699A - 对先前呈现的材料的识别和重构 - Google Patents

对先前呈现的材料的识别和重构 Download PDF

Info

Publication number
CN114625699A
CN114625699A CN202111434346.9A CN202111434346A CN114625699A CN 114625699 A CN114625699 A CN 114625699A CN 202111434346 A CN202111434346 A CN 202111434346A CN 114625699 A CN114625699 A CN 114625699A
Authority
CN
China
Prior art keywords
user
electronic
machine
portions
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111434346.9A
Other languages
English (en)
Inventor
J·R·杰普森
Z·A·西尔弗斯坦
S·T·雷诺兹
J·R·福克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN114625699A publication Critical patent/CN114625699A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/197Version control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/156Query results presentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

信息识别和重构包括分析嵌入在呈现给用户的电子呈现结构中的电子媒体内容,并且基于该分析,检测先前由用户消费的电子媒体内容的部分。该方法包括基于该检测来修改电子呈现结构,以将先前由用户消费的电子媒体内容与电子媒体内容的其它部分区分开。

Description

对先前呈现的材料的识别和重构
技术领域
本公开涉及电子地处理信息并将信息呈现给用户,并且更具体地,涉及区分新呈现给用户的信息和先前呈现的信息。
因特网和其它现代形式的电子通信的出现极大地扩展了信息的个人消费者接收信息的数量和模式。许多新闻文章和大量各种其它类型的信息可以被频繁地发布,并且以电子方式广泛地分布在各种通信和计算平台上。这种信息可以经由有线和无线连接通过各种类型的电子通信网络进行电子传送,并且可以使用各种类型的电子设备来消费。
背景技术
在一个或多个实施例中,一种方法包括对机器编码文件执行自然语言处理(NLP)以确定一个或多个文件分段分类器。机器编码文件可以经由数据通信网络被检索。该方法包括通过执行计算机数据库搜索以查找在先前呈现给用户的电子内容内标识的与从所述机器编码文件提取的NLP元素匹配的NLP元素,来在机器编码文件内检测与所述一个或多个文件分段分类器对应的先前消费的内容,其中所述搜索是对于用户特定的消费语料库数据库执行的。该方法包括基于该检测来修改用于将机器编码文件电子地呈现给用户的电子呈现结构。所述电子呈现结构被修改为将所述机器编码文件内对应于先前消费的内容的部分与机器编码文件的其它部分区分开。
在一个或多个实施例中,一种方法包括分析嵌入在呈现给用户的电子呈现结构中的电子媒体内容。该方法包括基于所述分析来检测所述电子媒体内容的先前由所述用户消费的部分。该方法包括基于检测修改电子呈现结构,以将先前由所述用户消费的电子媒体内容与所述电子媒体内容的其它部分区分开。
在一个或多个实施例中,一种方法包括检测在用户经由数据通信网络对机器编码文件的较早版本进行的早前检索之后对所述机器编码文件的一个或多个修订。所述检测包括对在所述机器编码文件的较早版本的电子内容内标识的自然语言处理(NLP)元素与在机器编码文件的修订版本的电子内容中标识的NLP元素进行比较。该方法包括基于检测一个或多个修订,使用指示新添加或修订哪些部分的另一电子呈现结构来呈现所述机器编码文件。
在一个或多个实施例中,一种***包括配置成发起操作的处理器。所述操作包括对机器编码文件执行自然语言处理(NLP)以确定一个或多个文件分段分类器。所述机器编码文件可以经由数据通信网络来检索。所述操作包括通过执行计算机数据库搜索以查找在先前呈现给用户的电子内容内标识的与从所述机器编码文件提取的NLP元素匹配的NLP元素,来在所述机器编码文件内检测与所述一个或多个文件分段分类器对应的先前消费的内容,其中所述搜索是对于用户特定的消费语料库数据库执行的。操作包括基于检测来修改用于将机器编码文件电子地呈现给用户的电子呈现结构。所述电子呈现结构被修改为将机器编码文件内对应于所述先前消费的内容的部分与机器编码文件的其它部分区分开。
在一个或多个实施例中,计算机程序产品包括其上存储有指令的一个或多个计算机可读存储介质。所述指令可由处理器执行以发起操作。所述操作包括对机器编码文件执行自然语言处理(NLP)以确定一个或多个文件分段分类器。所述机器编码文件可以经由数据通信网络来检索。所述操作包括通过执行计算机数据库搜索以查找在先前呈现给用户的电子内容内标识的与从所述机器编码文件提取的NLP元素匹配的NLP元素,来在所述机器编码文件内检测与所述一个或多个文件分段分类器对应的先前消费的内容,其中所述搜索是对于用户特定的消费语料库数据库执行的。操作包括基于所述检测来修改用于将所述机器编码文件电子地呈现给用户的电子呈现结构。所述电子呈现结构被修改为将所述机器编码文件内对应于所述先前消费的内容的部分与所述机器编码文件的其它部分区分开。
提供本概述部分仅是为了介绍某些概念,而不是标识所要求保护的主题的任何关键或必要特征。本发明的其它特征将从附图和下面的详细描述中变得明显。
附图说明
本发明的布置方案通过附图中的例子来说明。然而,附图不应被解释为将本发明的布置方案限制为仅示出的特定实施方式。在阅读以下详细描述并参考附图之后,各个方面和优点将变得显而易见:
图1描绘了根据实施例的其中使用一个或多个信息识别和呈现***的示例计算环境;
图2示出了根据实施例的示例性信息识别和呈现***;
图3示出了根据实施例的示例性信息识别和呈现***的某些操作特征;
图4描述了根据实施例的示例电子呈现结构和修改的电子呈现结构;
图5是根据实施例的电子地识别和呈现信息的示例方法的流程图;
图6是根据实施例的电子地识别和呈现信息的示例方法的流程图;
图7是根据实施例的在用户的特定位置的上下文中电子地识别和呈现信息的示例方法的流程图;
图8是根据实施例的检测对先前电子地呈现给用户的信息的部分的更新的示例方法的流程图;
图9描绘了根据实施例的云计算环境;
图10描绘了根据实施例的抽象模型层;
图11描绘了根据实施例的云计算节点;以及
图12描绘了根据实施例的示例便携式设备。
具体实施方式
虽然本公开以限定新颖特征的权利要求结束,但是相信通过结合附图考虑描述,将更好地理解本公开内描述的各种特征。出于说明的目的,提供了本文描述的过程、机器、制造及其任何变化。在本公开中描述的具体结构和功能细节不应被解释为限制性的,而仅作为权利要求的基础以及作为用于教导本领域技术人员以各种方式采用在实际上任何适当的详细结构中描述的特征的代表性基础。此外,本公开中使用的术语和短语不旨在是限制性的,而是提供对所描述的特征的可理解的描述。
本公开涉及电子地处理信息并将信息呈现给用户,并且更具体地,涉及在新呈现给用户的信息和用户先前消费的信息之间进行区分。表面上不断扩展的电子通信技术和信息源的阵列提供对更大量信息的更大访问。尽管有快速访问大量信息的好处,但信息量可能达到对信息的个体消费者的回报递减的点。例如,发展中的当前事件可以提示多个新闻文章。然而,许多文章中的一些可能仅仅机器重复相同的事实。因此,个人必须费力地读过相当大量的材料,以便仅仅发现个人已经消费了信息的哪些部分以及哪些部分是新的。
本文公开的***、方法和计算机程序产品的一个方面是自动发现用户已经消费的信息,从而减轻用户重新阅读、再次收听或重新观看先前电子地呈现给用户的资料的需要。另一方面是重构电子呈现结构,该电子呈现结构对比、压缩或消除先前作为电子内容呈现给用户的信息的部分。如本文所定义的“电子内容”是在机器编码文件中呈现的任何信息或数据,其可以由计算机***电子地存储和/或处理。呈现为电子内容的信息可以包括新闻文章、教育材料、学术期刊、人类兴趣故事、娱乐材料等。用于呈现电子内容的机器编码文件可被格式化为电子文档、音频文件、视频文件或其任何组合。如这里所定义的,“电子呈现结构”是嵌入在机器编码文件中的任何文本、图像、音频或视频,该机器编码文件是电子地被接收或生成的,并使用电子设备被呈现给用户。电子设备例如可以是台式或膝上型计算机、平板电脑、智能电话或能够经由有线和/或无线连接接收文本、图像、音频和/或视频的类似这样的设备。
本文公开的***、方法和计算机程序产品在给定量的电子内容内检测用户先前消费的电子内容的不同部分。如这里所定义的,用户通过经由数据通信网络检索嵌入在电子文档、音频文件或视频文件中的电子内容来“消费”电子内容,或者在使用户能够在阅读、收听或查看内容时对内容加标签的***的上下文中,通过对文章加标签以指示用户已经阅读、收听或查看了电子内容来“消费”电子内容。当用户消费采用不同形式(例如,文本、音频、视频)的来自各种源的电子内容时,所消费的电子内容被添加到包括用户特定消费语料库的数据库中,以便与随后呈现的信息进行比较,从而避免重复呈现已经消费的电子内容。
本文公开的各种机器学习和自然语言处理技术以不同的布置方案确定机器编码文件内的一个或多个文件分段分类器。一个或多个文件分段分类器对新呈现的电子内容的不同分段进行分类,并且对应于通过主题分析标识的不同主题。对于每个标识的主题,可以将电子内容的对应分段与先前消费的电子内容进行比较,以确定新呈现的电子内容的任何特定于主题的分段是否与属于相同主题的先前消费的内容相同或足够相似。
基于该检测,用于呈现机器编码文件中的电子内容的电子呈现结构被修改。电子呈现结构被修改为将机器编码文件内与先前消费的电子内容部分相对应的部分与该机器编码文件的其它部分区分开。这使得用户能够避免重新阅读、重新收听或重新观看先前作为电子内容呈现给用户的信息。例如,对于电子内容的文本呈现,可以通过以不同的颜色或样式突出显示或呈现文本来注释电子呈现结构,以将新呈现的内容与先前消费的内容区分开。在音频呈现中,例如,可以快速消除、跳过或加速通过与先前呈现的内容有关的音频部分。在基于视频的呈现中,例如,同样可以跳过或加速视频的与先前呈现的内容有关的部分。通过重新格式化和/或注释,电子呈现结构可以被重构以区分先前消费的电子内容与新呈现的电子内容。可选地,重构可以包括注释电子内容以指示先前消费的电子内容的部分。
这里描述的布置方案涉及计算机技术,并提供对现有计算机技术的改进。一个这样的改进涉及减轻计算资源的浪费。数量不断增加的信息作为电子内容被传播。电子内容的数量越大,用于电子地存储和处理嵌入其中的信息的计算资源的花费就越大。本文描述的布置方案通过减少对仅复制用户已经消费的信息的电子内容的处理和存储来增强计算机***处理效率并减少数据存储要求。
例如,对于任何计算设备(例如,台式计算机、膝上型计算机、平板计算机、智能手表),这些安排通过避免在处理和呈现重复的电子内容时不必要地使用计算资源来改进计算机技术。减少处理重复电子内容的需要增强了计算设备的处理效率。通过避免已经消费的电子内容的数据存储,计算设备的可用存储容量相应地增强。因此,通过避免检索、存储和处理用户已经消费的信息,计算机和设备硬件执行得更有效。
参考以下附图更详细地描述本公开内描述的实施例的其他方面。为了说明的简单和清楚的目的,图中所示的元件不一定按比例绘制。例如,为了清楚起见,一些元件的尺寸可能相对于其他元件被放大。此外,在认为适当的情况下,在附图中重复参考数字以指示对应的、相似的或类似的特征。
图1描绘了计算环境100。计算环境100说明性地包括计算节点102、一个或多个信息节点104以及经由数据通信网络108通信地耦合的设备106a、106b和106c。计算节点102和(一个或多个)信息节点104各自可包括参考包括计算机***1112(图11)的示例计算节点1100描述的硬件组件中的一个或多个。设备106a-106c可以包括计算机***(例如,台式计算机),该计算机***具有存储器、一个或多个处理器、以及诸如参考计算机***1112(图11)所描述的硬件组件之类的其他硬件组件。设备106a-106c中的一个或多个可以是便携式设备(膝上型计算机、平板计算机、智能电话),例如示例便携式设备1200(图12)。尽管示出了三个设备,但是诸如计算环境100等环境通常包括更多这样的设备。在操作上,设备106a-106c的用户电子地访问嵌入在机器编码文件中的电子内容,所述机器编码文件诸如电子文档、音频文件、视频文件、以及由信息节点104托管并经由到数据通信网络108的有线或无线连接访问的各种其他媒体。各种媒体传送各种类型的电子内容,包括新闻文章、教育资料、人类兴趣故事、娱乐资料等。数据通信网络108通常包括因特网,但可包括广域网(WAN)、局域网(LAN)和各种其它数据通信网络,通过这些网络可访问和检索电子文档、音频、视频和各种其它媒体。
通过数据通信网络108从信息节点104到设备106a-106c的用户的可用的信息量可以是大量的。给定设备用户可以经由数据通信网络108从信息节点104电子地检索的作为电子内容的信息量,有时电子地呈现给设备用户的信息是先前呈现的信息的全部或部分的重复。例如,平板用户可能希望通过访问其文本由不同新闻组织生成的若干文章来赶上当前事件的新闻。用户可能已经密切关注了与事件有关的发展一段时间,并且一些文章可能仅仅重申用户已经阅读过的事实。在另一背景中,例如,在线上大学的计算机用户可以被分配若干教学视频以供观看。分配给用户的一些或所有教学视频可能包括覆盖相同或基本相似材料的部分。
在这些和其它情况下,根据本文描述的各种实施例的信息识别和呈现(IRP)***可以减轻设备用户不必要地花费时间和精力对各种形式(例如,文本、音频、视频)的电子内容进行分类以将新呈现的信息与先前呈现的信息分开。
IRP***分析嵌入在呈现给用户的电子呈现结构中的电子媒体内容。基于该分析,IRP***检测用户先前消费的电子媒体内容的部分。IRP***基于检测用户先前消费的一个或多个部分,来修改电子呈现结构以将用户先前消费的电子媒体内容与电子媒体内容的其它部分区分开。
IRP***还通过减少对存储、检索和处理用户已经消费的电子内容的需要,来提高底层计算机***或设备硬件的效率。当用户电子地检索作为机器编码文件的电子内容时,IRP***标识机器编码文件中与先前消费的内容相对应的不同部分。
在本文公开的某些实施例中,IRP***在标识机器编码文件的不同部分或分段中实现自然语言处理(NLP)和其它机器学习方面,这些分段由文件分段分类器标识,每个文件分段分类器对应于呈现为电子内容的信息的特定主题。IRP***在机器编码文件内检测与一个或多个文件分段分类器相对应的先前消费的内容。通过执行计算机数据库搜索,以查找在先前呈现给用户的电子内容中标识的、与从机器编码文件中提取的NLP元素匹配的NLP元素,来检测先前消费的内容。针对用户特定的消费语料库数据库执行搜索,该数据库另外支持利用IRP***实现的机器学习。
基于该检测,IRP***修改电子呈现结构(例如,电子文档、音频文件、视频文件)以用于将机器编码文件电子地呈现给用户。可以修改电子呈现结构,以便将机器编码文件内与先前消费的内容相对应的部分与机器编码文件的其它部分区分开。
对于包括文本的电子呈现结构,IRP***可以通过注释文本以将所述文本的与用户先前消费的电子媒体内容的部分相对应的部分与文本的其它部分区分开,来修改电子呈现结构。另外或替代地,在某些实施例中,IRP***可以修改一个或多个格式化标签,以从文本的其它部分改变与用户先前消费的电子媒体内容的部分相对应的文本的格式。在其它实施例中,IRP***附加地或替换地提取所述文本的与用户先前消费的电子媒体内容的部分相对应的部分。可选地,IRP***可以用链接代替所提取的部分。该链接可以将用户电子地链接到所提取的部分被电子地存储于其中的数据库。如果用户希望将提取的部分恢复到电子呈现结构,则IRP***可以提供指示用户链接到数据库的指令。IRP***可选地还可以向用户传送指示用户何时消费所提取的部分或在多久先前消费所提取的部分的指示符。
对于包括音频或视频文件的电子呈现结构,IRP***可以通过对于用户先前消费的电子媒体内容的部分加速音频或视频渲染速度的速度,来修改电子呈现结构。另外,或者可选地,其它实施例中的IRP***可以压缩音频或视频以消除用户先前消费的电子媒体内容的部分。IRP***可以针对被确定为先前未被用户消费的那些部分以正常速度实现音频或视频的渲染。
说明性地,在计算环境100内,IRP***110被实现为集成在或操作地耦合到计算节点102(可以是基于云的服务器)的基于云的***。IRP***110可以用硬件、软件或两者的组合来实现。执行这里描述的操作和功能,IRP***110将新呈现给用户的电子呈现结构(例如,电子文档、音频、视频)与先前呈现给用户并以电子方式存储在IRP***110可访问的数据库中的先前呈现112进行比较。IRP***110基于该比较将用户先前消费的信息的部分与电子地呈现给用户的新信息区分开。实现为基于云的***的IRP***110由用户使用设备106a或通信地耦合到数据通信网络108的其它电子设备经由数据通信网络108访问。
在备选布置方案中,IRP***114是在设备106b中实现的本地化IRP***。IRP***114可以执行与IRP***110相同或相似的操作和功能,但是在设备106b中实现,而不是如IRP***110那样在基于云的服务器中实现。例如,IRP***114可以包括下载到设备106b(例如,台式机、膝上型计算机、平板计算机、智能电话)的计算机应用。可选地,在执行这里描述的操作和功能的IRP***114也可以本地存储先前的呈现(例如,电子文档、音频、视频)。IRP***114或者可经由数据通信网络108访问单独存储的先前呈现112。设备106c可以是由同一用户使用的另一设备。在设备106b上操作的IRP***114可以操作地耦合到设备106c,以便执行与在设备106c上呈现给用户的电子呈现结构有关的相同操作和功能。
图2更详细地描绘了根据实施例的IRP***200的某些示例组件。IRP***200在不同的软件模块中实现。说明性地,模块包括分析器202、选择器204、比较器206和重构器208。包括IRP***200的模块电子地处理由用户检索的机器编码文件,机器编码文件可包括作为电子文档、音频渲染、视频或其它电子呈现结构呈现给用户的电子内容。可操作地,IRP***200处理嵌入在机器编码文件中的文本数据。文本数据因此可以被包含在电子文档(例如网页、在线新闻文章、消息)中,或者由语音到文本处理器(未示出)从语音(例如预先录制的音频、视频的音频部分)转换。
在不同实施例中,IRP***200集成了机器学习的各个方面。分析器202基于嵌入机器编码文件中的电子内容的主题分析,来标识文章中的主题。分析器202实现自然语言处理以将电子内容解析为文本的组成元素,评估文本的含义,并化解固有歧义性。分析器202的自然语言处理可以包括基于标记化、词形还原和/或词性标注的语义分析和/或词义消歧。
分析器202使用深度学习来结合自然语言理解,在本文描述的某些实施例中,深度学习在多隐藏层神经网络中实现。使用多隐藏层神经网络,分析器202执行文本分析以从给定的文本中提取关键词、概念、类别、关系、情感、句法和其他自然语言元素。如本文所定义的,“自然语言处理(NLP)元素”是基于自然语言处理在文本中被检测或从文本导出(显式或隐式)的任何对象,并且至少部分地解释文本的特定片段的自然语言含义。如下所述,NLP元素包括关键词、概念、关系等,以及语义和句法对象。在某些实施例中,分析器202执行文本分析以检测关键词频率并从非结构化文本中提取频繁地彼此结合出现的短语。文本分析由分析器202在分析机器编码文件210中结合机器学习模型来执行,该机器学习模型被训练以标识与机器编码文件210的不同分段212相对应的一个或多个主题。
在某些实施例中,分析器202通过执行NLP来确定机器编码文件210内包含的一个或多个文件分段分类器。每个文件分段分类器对应于机器编码文件210的不同部分或分段,其属于作为电子内容被嵌入机器编码文件210中的信息的特定主题。在不同分段212中包含的信息可以覆盖多个主题。
在一些实施例中,分析器202实现主题建模,一种无监督机器学习技术,以确定对应于文件分段分类器的主题。为实现主题建模,分析器202基于每个文本包含的单词和观察到的它们之间的相关性来对文本分组。在某些实施例中,分析器202使用潜在语义分析来实现主题建模,潜在语义分析基于分布假设以相同单词在每一文本内出现的频率为基础来对文本进行分组。在其他实施例中,分析器202使用潜在狄利克雷分析来实现主题建模,所述潜在狄利克雷分析是将文本映射到主题并对文本进行分组以使得每个文本中的单词被主题捕获(或几乎被捕获)的生成统计模型。
基于无监督机器学习的主题建模非常适合于发现用户感兴趣的主题,尽管用户没有明确地指定。然而,如果用户指定感兴趣的主题,则分析器202可以实现受监督的机器学习以训练分类模型,从而基于预定主题对信息的不同部分进行分类。例如,用户在消费(例如,阅读、收听、观看)信息(电子内容)的电子呈现(例如,文档、音频、视频)时,可以根据用户标识的主题来标记或标注电子呈现。可以将标记的电子呈现添加到标记的训练示例的语料库中,并且电子地存储。在某些实施例中,分析器202实现深度学习神经网络分类模型,该模型使用用户标记的电子呈现来训练以根据主题对电子内容的不同部分进行分类。
因此,在一些实施例中,IRP***200向用户提供这样的选项:使***通过非结构化机器学习(例如,主题建模)来学习以发现用户感兴趣的主题。或者,用户具有明确指定感兴趣的主题的选项,当用户消费在电子呈现中传送的信息时,用户可以通过标记电子呈现来完成该选项。通过标记电子呈现,用户构建用于训练分类模型(例如,深度学习神经网络)的标记的训练示例的语料库,以标识用户特别感兴趣的主题。此外,无论用户是否特别感兴趣任何特定主题,在此描述的各种实施例中的IRP***200检测和标识先前消费的内容,从而使得用户能够跳过或以其他方式避免已经消费的内容。
基于由分析器202确定的主题,选择器204检索电子存储的主题特定数据。数据的结构可以包括基于对用户先前检索的电子文件214的自然语言处理而生成的NLP元素。数据结构包括电子地存储在消费语料库数据库216中的用户特定的消费语料库——即先前读取、听到或查看的电子内容——电子地存储在关系或非关系数据库中。数据结构对应于从电子文档中提取的文本或由语音到文本处理器从音频转换的文本。数据结构还可以包括指示相应信息被呈现给用户的日期的时间戳。
选择器204执行消费语料库数据库216的计算机数据库搜索,以查找在先前呈现的文件214中的电子内容内标识的NLP元素,以标识与从机器编码文件210中提取的NLP元素相匹配的NLP元素。基于匹配,选择器204可以选择先前呈现的电子内容的特定于主题的分段,以便与机器编码文件210的特定于主题的不同分段212进行比较。
可选地,基于用户提供的指令,选择器204可以从先前呈现的文件214中仅选择在特定时间间隔内先前呈现给用户的那些文件。因此,对于特定用户,信息的电子比较是根据主题以及用户消费信息的时段两者。例如,用户可以指定将新呈现的信息与在上周、上个月、上年或任何其他时段内消费的信息进行比较,这也可以反映用户对某些主题的兴趣强度。
对于由分析器202确定的一个或多个主题中的每一个,比较器206将不同片段212与相应的特定于主题的内容进行比较,该特定于主题的内容被包含在电子地存储在消费语料库数据库216中的文章中并且基于由分析器202标识的主题被选择器204检索。比较器206将分析器202从不同分段212提取的NLP元素与从电子地存储在消费语料库数据库216中的先前检索的文件214提取的NLP元素进行比较。
由分析器202提取NLP元素,该分析器对检索到的机器编码文件210的不同分段212以及其主题对应于机器编码文件210的主题的先前消费的文本执行文本分析。基于自然语言理解,分析器202标识并提取NLP元素,诸如名称、地点和事件。分析器202还提取关键字。分析器202还提取概念。概念是文本中表达的主题和想法的高级表征。例如,如果机器编码文件210包括关于深度学习的研究论文,则分析器202可以提取概念“人工智能”,即使在文本中既没有明确地陈述“人工”也没有明文陈述“智能”。分析器202还提取NLP元素之间的关系。例如,如果机器编码文件210包括关于诺贝尔奖的新闻文章,该文章包括NLP元素“诺贝尔物理学奖”和名称“Andrea M Ghez”,则分析器202可以通过关系“授予”来连接NLP元素。
分析器202还对NLP元素进行分类。在一些实施例中,分析器202生成文本主题的分类层级(例如,财务/金融新闻、计算机/操作***/硬件)。分析器202还可以基于情感(例如,正面、负面、中性)和/或情绪(例如,欢乐、悲伤、愤怒、沮丧)的NLP元素来分类文本。
基于对机器编码文件210的NLP元素和先前检索的文件214的NLP元素的基于主题的比较,比较器206标识机器编码文件210的不同分段212中的哪些分段包括先前消费的信息。机器编码文件210的不同分段可以逐字地重述与在先前检索的文件中标识的相同主题有关的部分,在该事件中,机器编码文件210的不同分段被比较器206标识为先前消费的内容。然而,在其他情况下,尽管在机器编码文件210的不同分段和属于相同主题的先前检索的文件分段之间可能不存在逐字的同一性,但是分段之间的相似性可能足以使比较器206将机器编码文件210的不同分段标识为先前消费的内容。
相似性可以基于比较器206执行的相似性分析来确定,该比较器比较从各个文件中提取的相应NLP元素。例如,两个文件所共有的NLP元素的百分比可以由比较器206确定。基于该百分比,比较器206可以确定各个片段重复的概率。足以使比较器206将机器编码文件210的不同分段标识为先前消费的内容的相似性可以基于超过由用户预定的特定级别(例如,80%)的概率。
因此,注意,基于主题分析和自然语言理解,IRP***200能够标识出现在新呈现的机器编码文件中的先前消费的内容,即使特定于主题的片段的并排比较可能不揭示先前检索的内容覆盖基本上相同的材料,尽管是以不同的方式呈现的。例如,新检索的金融新闻文章可以包括与先前检索的新闻文章写得不同的文本。然而,诸如关键字或术语(例如,名称、日期、数值)和/或概念(例如,货币政策)和/或关系(例如,货币政策和利率)的NLP元素的比较可以揭示:高百分比(例如,90%)的相同NLP元素出现在两篇文章中,使得在后的文章基本上是早前检索的文章的重复。
在某些实施例中,IRP***200生成相似性度量,例如相同或共同NLP元素的百分比,以确定不同分段212中的一个或多个是否包括用户先前消费的信息。IRP***200还可以包括例如基于情感和/或情绪的对于相似性度量的偏移。相似性度量偏移是一种否定因子,其降低了除情感和/或情绪差异之外的在其他方面相似的两个或更多文章之间的相似性度量。基本概念是,尽管叙述了共同事实,但此类文章可提供关于同一组事实的对比观点。例如,包括对同一对象的编辑意见的两篇文章可能包含关于NLP要素的相似性。然而,如果每个采用不同的视图,则每个的情感和/或情绪将很可能不同。因此,IRP***200对相似性打折,并基于情感和/或情绪方面的差异,推断出在后检索到的文章中的材料先前未被消费。情感和情绪以及其他NLP元素可以被电子地存储在消费语料库中。
由分析器202、选择器204和比较器206协作执行的操作和功能可以对从任何介质(例如,电子文档、音频、视频)直接导出或通过语音到文本处理而导出的文本执行。同样,用户特定的消费语料库合并与从不同媒体导出的文本相对应的数据结构。因此,新呈现在一个介质中的信息可以与先前呈现在完全不同的介质中的信息进行比较。例如,可以将在包括电子文档的电子呈现结构中新呈现的信息与先前在另一电子呈现结构中呈现的信息进行比较,该另一电子呈现结构包括音频或视频以及其它电子文档。IRP***200因此能够对电子地呈现给用户的信息进行混合介质内容比较。例如,开始对音频书呈现的小说收听并在某点停止的用户可通过阅读平板电脑上的电子文本来恢复故事情节,其中电子内容被注释以指示用户停止收听音频书的位置。因此,IRP***200可以指示用音频书收听小说的部分,并且使得用户能够继续从平板电脑新呈现的小说部分阅读。
在其它实施例中,IRP***200附加地或替换地基于与呈现给用户的电子文档、音频、视频或其它电子呈现结构对应的元数据,来标识新呈现的信息中与先前呈现的信息对应的不同部分。例如,对应于电子文档的元数据可以指示文档的版本或公布日期。如果随后例如通过更新旧信息(例如,适合的名称、日期、数值)或添加新信息来修订电子文档,则对对应于较早发布版本和较晚发布版本的元数据的比较可以提示比较器204确定两个版本之间的改变。在又一些实施例中,IRP***200附加地或备选地捕获用户所消费的在线出版物的URL超链接,将内容存储在关系或非关系数据库中以供后来将对其中包含的信息的连续改变与每一内容更新进行比较。
重构器208基于比较器206检测对应于先前呈现的信息而呈现的信息的不同部分,来修改电子呈现结构。对于呈现为文本的信息,重构器208可以注释电子文档的文本,以将先前呈现的信息的那些部分与新呈现给用户的部分进行对比。在一些实施例中,重构器208使用将新呈现的部分与先前呈现的部分进行对比的不同颜色、字体和/或风格变化(例如,粗体、斜体、删除线)和/或背景来突出显示文本。在一些实施例中,重构器208压缩文本,消除被标识为先前已经呈现给用户的部分。
在某些实施例中,包括音频或视频的电子呈现结构由重构器208修改,压缩该结构以消除对应于先前呈现的信息的不同部分。在其它实施例中,重构器208改变包含先前呈现的信息的音频或视频部分的呈现速度。重构208可以改变呈现的速度,使得音频或视频加速或跳过先前已经听到或看到而用户不必再次听到或看到的那些部分。重构器208使音频或视频渲染被确定为以正常速度新呈现的部分。
例如,对特定主题感兴趣的用户可能参与阅读电子检索的电子文档、观看视频和收听音频播客。随着用户对主题的越来越多的理解,用户希望消费新的材料,而不是再次阅读、重新查看或收听先前消费的内容。当用户消费关于相同主题的更多内容时,IRP***200持续更新消费语料库数据库216。当用户收听关于该主题的播客时,重构器208使音频前进(例如,前进7分钟)以在引入新材料的点处开始音频。在观看关于该对象的视频时,重构器208可以加速视频呈现(例如,2X正常速度)通过与先前消费的内容相对应的部分,然后在新呈现的内容开始的点处将视频呈现减慢到正常速度。当用户检索关于该主题的电子文档时,重构器208注释与先前消费的信息重复的信息(例如,来自其他电子文本、先前音频或先前视频),并且突出显示、注释或以其他方式区分新呈现的信息与先前消费的信息。
在某些实施例中,IRP***200识别与文档、音频或视频相关联的元数据,其中元数据指示其中呈现的信息与渲染信息的电子呈现的设备的特定位置(例如,GPS坐标)有关。例如,用户可以在厂区的多个站点之间移动,读取使用平板电脑或能够接收和处理无线信号的其他设备无线捕获的电子文档。用户可能需要在每个站点审阅一组使用和安全文档,而不管是否先前已经在另一站点读取了信息,目标是确保所呈现的信息在用户每次访问特定站点时被审阅。基于由IRP***200识别的元数据,每个站点处的IRP***200可突出显示相应电子文档的特定部分以指示包括所需阅读的信息的特定部分。设备位置数据(例如,GPS坐标)可以被包括在由设备在请求内容时发送的内容请求中。例如,插件可以包括这样的数据。IRP***200可以使用设备位置数据与关联于所请求内容的任何其它数据的比较来修改电子呈现结构,其中该所请求内容是与位置有关的。
在其它实施例中,IRP***200跟踪其中信息以各种媒体(例如文档、音频、视频)呈现的上下文,使得先前呈现的信息由***根据其中呈现信息的上下文来不同地对待。如上所述,给定文章的上下文基础,用户能够限制电子呈现结构的修改,该上下文基础是根据由IPR***200提取的关键词、概念、关系或其它NLP元素确定的。如本文所定义的,“上下文基础”是由自然语言处理确定的主题、子主题或概念,其整体或部分地基于总体主题来表征文章。例如,用户可能想要追踪文章中所消费的关于COVID-19的经济影响的信息,但不想阅读新文章中关于COVID-19的经济影响的重复事实,然而,如果在新话题的上下文中呈现,诸如关于大联盟棒球的文章,用户可能仍然想要看到重复的相同事实。如果文章的上下文基础是经济影响则IPR***200修改文章的电子呈现结构,但如果上下文基础是大联盟棒球则IPR***200不修改文章的电子呈现结构。因此,用户可以用机器编码的指令指定重构器208如果在一个上下文(例如,经济影响)中呈现则重构与主题有关的电子呈现结构,而在另一个上下文(例如,职业体育)中则不重构。
在又一些实施例中,用户可以用机器编码的指令指定IRP***200用目的和/或日期指示符电子地标记信息以指示用户何时消费信息以及为什么。例如,参与在线学习的用户可以指定在十一月3日消费的材料是为了特定任务的目的。当相同的信息被新呈现在随后生成的电子呈现结构中时,重构器208可以注释文本或者以其他方式通知用户先前何时和/或为什么消费相同的信息。用于在音频或视频中传送的信息的重构器208还可以生成记录,该记录向用户指示已经听到的音频部分或已经观看的视频部分。可选地,在在线学习的环境中,例如,IPR***200可以生成分配给用户的信用,因为如果相应的材料先前未被用户消费则每个新的分配被消费。
在又一些实施例中,IRP***200可跟踪包含在先前呈现的电子呈现结构中的信息量。IRP***200可以生成指示包含在先前消费的文章中的信息的百分比的度量。例如,包括文本的电子呈现结构可以包含注释,该注释指示包含在电子呈现结构中与先前呈现的信息相对应的文本的百分比。例如,响应于用户经由数据通信网络检索在线文章,IRP***200可以向用户传送指定对应的“关系分数”的电子消息,该“关系分数”指示先前消费的文章的部分。IRP***200可以询问给定关系分数,用户是否希望查看在线文章或者希望否定访问文章的请求。
类似地,包括音频或视频的电子呈现结构可以包括预先录制指示符,该指示符向用户通告用户先前消费的音频或视频的百分比。因此,用户可以决定文章、音频或视频是否包含足以值得花费时间阅读、收听或观看电子呈现结构的量的新呈现信息。
图3描绘了IRP***的某些操作方面300,根据一个实施例,该***在用作web浏览器的附件的软件模块或模块套件中实现。在框302,用户安装IRP***web插件。在各种实施例中,插件可以用作基于云的IRP***(例如IPR***110(图1))和/或IPR***(例如IPR***114(图1))的一部分。在框304,IRP***响应于用户经由数据通信网络访问和检索包含电子内容306的机器编码文件而捕获到电子内容306的URL超链接。机器编码文件可以被格式化为电子文档、音频文件或视频文件。IRP***在框308捕获电子内容306,并且在框310与URL超链接一起将包括URL超链接和机器编码文件的电子内容的数据结构312电子地存储在包含消费语料库314的数据库中。在框316,IRP***执行上述各种类型的NLP和相关分析中的一个或多个,以确定电子内容306的任何部分先前是否被用户消费过。
该确定可以基于将从电子内容306中提取的NLP元素与在消费语料库314中存储的电子内容中标识的NLP元素进行匹配。如果IRP***是基于云的,则IPR***可以充当代理,并且对电子内容306的请求可以经由插件被转发到代理,该代理执行NLP和相关分析。可选地,在框318,IRP***生成关系分数并将该关系分数附加到URL超链接,该关系分数指示被确定为先前已被用户消费的电子内容306的比例。IPR***可以发送指示关系分数的消息,并询问用户是否希望加载电子内容306。响应于确定电子内容306的某些部分先前已被用户消费,在框320处重新构造用于向用户呈现电子内容306的电子呈现结构。
另外参考图4,描述了包括文本文档400的电子呈现结构的示例重构。基于由IRP***执行的上述操作方面300,文本文档400内的部分被标识为对应于用户先前消费的信息。文本文档400被重构为电子呈现结构402,其将先前消费的部分与新呈现给用户的电子内容的部分进行对比。电子呈现结构402,即文本文档400的修改或重构,包括不同的部分404、406、408和410。例如,每个部分404-410利用不同的阴影被突出显示,以指示先前消费的部分。突出显示颜色可以对应于文本文档内的不同主题,突出显示阴影的差异可以指示自从相应部分(按主题)被消费以来的时间长度。例如,文本文档400可以是关于新病毒的新闻文章。响应于用户经由数据通信网络提交对文本文档400的电子请求,IRP***确定先前消费的部分。可以用不同的阴影来突出显示不同的部分404、406、408和410,以指示先前消费的部分和每个所属的主题。
图5是根据实施例的电子地识别和呈现信息的方法500的流程图。方法500可以由与参考图1和2所述的相同或类似的***执行。在框502,***分析嵌入在呈现给用户的电子呈现结构中的电子媒体内容。电子媒体内容可以以电子文档、音频记录、视频记录、多媒体演示、CD-ROM、作为在线内容等呈现,其通常以数字格式呈现,但在某些实施例中可以包括模拟数据。
在框504,基于该分析,***检测先前由该用户消费的电子媒体内容的部分。在方框506,***基于该检测来修改电子呈现结构。电子呈现结构被修改为将先前由该用户消费的电子媒体内容与电子媒体内容的其它部分区分开。
如果电子呈现结构包括音频或视频文件,则***可以通过加快音频或视频被呈现的速度来修改电子呈现结构。对于电子媒体内容的先前由用户消费的部分加速速度允许用户快速移动通过电子媒体内容,而不必重新读取或重新查看电子媒体内容的先前消费的部分。可替换地或附加地,在其他实施例中,***可以压缩音频或视频以消除先前由用户消费的电子媒体内容的部分。
如果电子呈现结构包括文本,则***可以通过注释文本以将对应于先前由用户消费的电子媒体内容的部分的文本部分与先前未由用户消费的文本部分区分开,来修改电子呈现结构。在其它实施例中,***可以替代地或附加地通过重新格式化一个或多个格式化标签以将对应于电子媒体内容的先前由用户消费的部分的文本部分与先前未由用户消费的文本部分区分开,来修改电子呈现结构。
在其他实施例中,***可替换地或附加地可以通过提取与先前由用户消费的电子媒体内容的部分相对应的文本部分,来修改电子呈现结构。可选地,***可以用链接替换所提取的部分。链接可以将用户电子地(例如,经由数据通信网络)连接到数据库,在该数据库中电子地存储所提取的部分。如果用户希望将提取的部分恢复到电子呈现结构,则***可以将链接与指令一起传送给用户,该指令指示用户链接到数据库。由***提供给用户的通知可以指示所提取的部分先前被用户消费过,并且询问用户是否希望再次消费所提取的部分,在这种情况下,用户可以使用***提供的链接来这样做。该通知可以指示用户何时消费了所提取的部分或在多久先前消费了所提取的部分。
图6是根据实施例的电子地识别和呈现信息的方法600的流程图。方法600可以由与参考图1和2所描述的相同或相似的***来执行。在框602,***对机器编码文件执行自然语言处理(NLP),以确定一个或多个文件分段分类器。机器编码文件可以由用户通过数据通信网络来检索。
在框604,***通过执行计算机数据库搜索以查找在先前呈现给用户的电子内容中标识的与从机器编码文件中提取的NLP元素相匹配的NLP元素,在机器编码文件中检测对应于一个或多个文件分段分类器的先前消费的内容。该搜索是针对用户特定的消费语料库数据库执行的。
在框606,基于该检测,***修改电子呈现结构,以便电子地向用户呈现机器编码文件。修改电子呈现结构以将机器编码文件内对应于先前消费的内容的部分与机器编码文件的其它部分区分开。
在一些实施例中,***响应于确定一个或多个文件分段分类器的上下文基础来修改电子呈现结构。一个或多个文件分段分类器可以对应于用户感兴趣的一个或多个主题。在一些实施例中,***通过执行无监督机器学习主题建模来自动地发现感兴趣的主题。使用主题建模,***基于先前由用户经由数据通信网络检索的多个机器编码文件来发现用户感兴趣的主题。
在其他实施例中,一个或多个文件分段分类器对应于***通过执行受监督机器学习主题分类来标识的用户感兴趣的一个或多个主题。该***基于由主题分类器执行的分类来标识主题,该主题分类器使用包括由用户选择的电子内容的消费语料库来利用机器学习进行训练。
在其他实施例中,先前呈现的电子内容包括先前在用户指定的时间间隔内经由数据通信网络检索的一个或多个机器编码文件。
在其它实施例中,***通过用关系分数注释电子呈现结构来修改电子呈现结构。***通过确定机器编码文件包括先前消费的内容的比例来生成关系分数。
图7是根据实施例的在用户的特定位置的上下文中电子地识别和呈现信息的示例方法700的流程图。方法700可以由与参照图1和2所述的相同或类似的***来执行,在方框702,***电子地跟踪用于接收电子呈现结构并将其呈现给用户的设备的位置。在方框704,***基于设备的位置修改电子呈现结构。
图8是根据实施例的检测对先前呈现给用户的信息部分的更新的示例方法800的流程图。方法800可由与参考图1和2所描述的相同或相似的***来执行。在框802,***检测在由用户对机器编码文件的早前搜索之后对该机器编码文件的一个或多个修改。在框804,***通过使用指示新添加或修改哪些部分的另一电子呈现结构来呈现机器编码文件,来响应检测到一个或多个修订。在一些实施例中,***可以自动地对链接到用户从其访问机器编码文件的站点的链接打上时间戳,并且记录版本。如果生成机器编码文件的新版本,则***可以通过执行在此描述的主题分析和自然语言处理以发现与该链接相关联的新生成版本是否包含用户先前未消费的部分,来检测修订。基于检测到先前未消费的部分,***可以与用户通信。***可以向用户指示修订版本的哪些部分是新呈现的,从而使得用户能够如用户希望的那样访问新呈现的信息而不必再次消费已经消费的部分。
明确地注意到,尽管本公开包括关于云计算的详细描述,但是本文中记载的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务递送模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问,所述可配置计算资源可以以最小的管理工作或与服务提供者的最小交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助:云消费者可以自动地根据需要单方面地提供计算能力,例如服务器时间和网络存储,而不需要与服务的提供者进行人工交互。
广网络接入:能力在网络上可用,并且通过促进由异构的薄或厚客户端平台(例如,移动电话、膝上型计算机和PDA)使用的标准机制来访问。
资源池化:供应商的计算资源被汇集以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义,因为消费者通常不控制或不知道所提供资源的确切位置,但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。
快速弹性:可以被快速且弹性地(在一些情况下自动地)供应以快速向外扩展和被快速释放以快速向内扩展的能力。对于消费者,对于供应可用的能力通常看起来是不受限制的,并且可以在任何时间以任何数量购买。
测量服务:云***通过利用在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力,来自动地控制和优化资源使用。可以监视、控制和报告资源使用,从而为所利用服务的提供者和消费者两者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用可通过诸如web浏览器(例如,基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作***、存储、或甚至个别应用能力的底层云基础结构,可能的例外是有限的用户专用应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上,该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作***或存储的底层云基础设施,但具有对部署的应用和可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源,所述软件可以包括操作***和应用。消费者不管理或控制底层云基础设施,但具有对操作***、存储、部署的应用的控制,以及可能对选择的联网组件(例如,主机防火墙)的有限控制。
部署模型如下:
私有云:云基础设施被运行以仅用于组织。它可以由该组织或第三方管理,并且可以存在于建筑物内或建筑物外。
社区云:云基础设施由若干组织共享,并且支持具有共享关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公有云:云基础设施可用于一般公众或大型产业群体,并且由销售云服务的组织拥有。
混合云:云基础设施是两个或更多云(私有、共同体或公共)的组合,这些云保持唯一的实体,但是通过使数据和应用能够移植的标准化或私有技术(例如,用于云之间的负载平衡的云突发)被绑定在一起。
云计算环境是面向服务的,其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。
现在参考图9,描绘了说明性云计算环境900。如图所示,云计算环境900包括一个或多个云计算节点910,云消费者使用的本地计算设备可以与一个或多个云计算节点910通信,所述本地计算设备例如个人数字助理(PDA)或蜂窝电话940a、台式计算机940b、膝上型计算机940c和/或汽车计算机***940n。计算节点910可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境900提供基础设施、平台和/或软件作为服务,云消费者不需要为其维护本地计算设备上的资源。应当理解,图9中所示的计算设备940a-n的类型仅旨在说明,并且计算节点910和云计算环境900可以在任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)上与任何类型的计算机化设备通信。
现在参考图10,示出了由云计算环境900(图9)提供的一组功能抽象层。应当预先理解,图10中所示的组件、层和功能仅旨在说明,并且本发明的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
硬件和软件层1060包括硬件和软件组件。硬件组件的示例包括大型机1061;基于RISC(精简指令集计算机)架构的服务器1062;服务器1063;刀片服务器1064;存储装置1065;以及网络和联网组件1066。在一些实施例中,软件组件包括网络应用服务器软件1067和数据库软件1068。
虚拟化层1070提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器1071;虚拟存储器1072;虚拟网络1073,包括虚拟专用网络;虚拟应用和操作***1074;以及虚拟客户端1075。
在一个示例中,管理层1080可以提供以下描述的功能。资源供应1081提供对被用来在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价1082提供了在云计算环境中利用资源时的成本跟踪,以及对于消费这些资源的记帐或***。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户1083为消费者和***管理员提供对云计算环境的访问。服务级别管理1084提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)规划和履行1085提供对云计算资源的预安排和采购,其中根据SLA预期未来需求。
工作负载层1090提供可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:地图绘制和导航1091;软件开发和生命周期管理1092;虚拟教室教育传送1093;数据分析处理1094;交易处理1095;和IPR***1096。
图11示出了计算节点1100的示例的示意图。在一个或多个实施例中,计算节点1100是合适的云计算节点的示例。计算节点1100不旨在对本文所述的本发明的实施例的使用范围或功能提出任何限制。计算节点1100能够执行本公开内描述的任何功能。
计算节点1100包括计算机***1112,其可与许多其它通用或专用计算***环境或配置一起操作。适合与计算机***1112一起使用的公知的计算***、环境和/或配置的示例包括但不限于:个人计算机***、服务器计算机***、瘦客户端、胖客户端、手持式或膝上型设备、多处理器***、基于微处理器的***、机顶盒、可编程消费电子产品、网络PC、小型计算机***、大型计算机***、以及包括任何上述***或设备的分布式云计算环境等。
计算机***1112可以在计算机***可执行指令的一般上下文中描述,诸如由计算机***执行的程序模块。通常,程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机***1112可以在分布式云计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机***存储介质中。
如图11所示,计算机***1112以通用计算设备的形式示出。计算机***1112的组件可以包括但不限于:一个或多个处理器1116、存储器1128和将包括存储器1128的各种***组件耦合到处理器1116的总线1118。如本文所定义,“处理器”意指经配置以执行指令的至少一个硬件电路。硬件电路可以是集成电路。处理器的示例包括但不限于中央处理单元(CPU)、阵列处理器、向量处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、专用集成电路(ASIC)、可编程逻辑电路和控制器。
由处理器执行计算机程序的指令包括执行或运行该程序。如本文所定义的,“运行”和“执行”包括由处理器根据一个或多个机器可读指令执行的一系列动作或事件。如本文所定义的“运行”和“执行”是指由处理器主动执行动作或事件。术语运行、执行和执行在此被同义地使用。
总线1118表示若干类型的总线结构中的任何一种的一个或多个,包括存储器总线或存储器控制器、***总线、加速图形端口、以及使用各种总线体系结构中的任何一种的处理器或局部总线。仅作为示例而非限制,这些体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线、***部件互连(PCI)总线和PCI高速(PCIe)总线。
计算机***1112通常包括各种计算机***可读媒体。这样的媒体可以是计算机***1112可访问的任何可用媒体,并且可以包括易失性和非易失性媒体、可移动和不可移动媒体。
存储器1128可以包括易失性存储器形式的计算机***可读媒体,例如随机存取存储器(RAM)1130和/或高速缓冲存储器1132。计算机***1112还可包括其它可移动/不可移动、易失性/非易失性计算机***存储媒体。作为示例,存储***1134可被提供用于从不可移动、非易失性磁媒体和/或固态驱动器(未示出且通常被称为“硬盘驱动器”)读取和向其写入。尽管未示出,但是可以提供用于从可移动、非易失性磁盘(例如,“软盘”)读取和向其写入的磁盘驱动器,以及用于从诸如CD-ROM、DVD-ROM或其它光学媒体等可移动、非易失性光盘读取或向其写入的光盘驱动器。在这种情况下,每个都可以通过一个或多个数据媒体接口连接到总线1118。如下面将进一步描绘和描述的,存储器1128可以包括至少一个程序产品,该程序产品具有一组(例如,至少一个)程序模块,该程序模块被配置成执行本发明的实施例的功能。
作为示例而非限制,具有一组(至少一个)程序模块1142的程序/实用程序1140以及操作***、一个或多个应用程序、其它程序模块和程序数据可被存储在存储器1128中。操作***、一个或多个应用程序、其它程序模块和程序数据或其某种组合中的每一个可包括联网环境的实现。程序模块1142通常执行如这里描述的本发明的实施例的功能和/或方法。例如,一个或多个程序模块可包括IPR***996或其部分。
程序/实用程序1140可由处理器1116执行。程序/实用程序1140和由计算机***1112使用、生成和/或操作的任何数据项是当被计算机***1112使用时赋予功能的功能数据结构。如本公开中所定义的,“数据结构”是数据模型在物理存储器内的数据组织的物理实现。这样,数据结构由存储器中的特定电或磁结构元件形成。一种数据结构对存储在存储器中的数据施加物理组织,如使用处理器执行的应用程序所使用的那样。
计算机***1112还可以与以下进行通信:一个或多个外部设备1114,诸如键盘、定点设备、显示器1124等;一个或多个设备,其使得用户能够与计算机***1112交互;和/或使计算机***1112能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)。这种通信可以经由输入/输出(I/O)接口1122发生。计算机***1112仍然可以经由网络适配器1120与一个或多个网络通信,诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,因特网)。如所描述的,网络适配器1120通过总线1118与计算机***1112的其它组件通信。应当理解,尽管未示出,但其它硬件和/或软件组件可结合计算机***1112使用。实例包括但不限于:微码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、RAID***、磁带驱动器和数据档案存储***等。
虽然计算节点1100用于示出云计算节点的示例,但是应当理解,使用与结合图11描述的架构相同或相似的架构的计算机***可以在非云计算实现中被使用以执行本文描述的各种操作。在这点上,本文描述的示例实施例不旨在限于云计算环境。计算节点1100是数据处理***的示例。如本文所定义的,“数据处理***”是指被配置为处理数据的一个或多个硬件***,每个硬件***包括被编程为发起操作的至少一个处理器和存储器。
计算节点1100是计算机硬件的示例。计算节点1100可以包括比图11中所示的更少的组件或包括未示出的附加组件,这取决于所实现的设备和/或***的特定类型。所包括的特定操作***和/或应用可以根据设备和/或***类型而变化,所包括的I/O设备的类型也可以变化。此外,一个或多个说明性组件可以被并入另一组件中,或者以其他方式形成另一组件的一部分。例如,处理器可以包括至少一些存储器。
计算节点1100也是服务器的示例。如这里所定义的,“服务器”表示被配置为与一个或多个其他数据处理***共享服务的数据处理***。如这里所定义的,“客户端设备”表示向服务器请求共享服务的数据处理***,并且用户直接与其交互。客户端设备的示例包括但不限于工作站、台式计算机、计算机终端、移动计算机、膝上型计算机、上网本计算机、平板计算机、智能电话、个人数字助理、智能手表、智能眼镜、游戏设备、机顶盒、智能电视等。在一个或多个实施例中,本文描述的各种用户设备可以是客户端设备。诸如路由器、防火墙、交换机、接入点等的网络基础设施不是客户端设备,因为术语“客户端设备”在这里被定义。
图12示出了根据本公开内容中描述的一个或多个实施例的示例便携式设备1200。便携式设备1200可以包括存储器1202、一个或多个处理器1204(例如,图像处理器、数字信号处理器、数据处理器)以及接口电路1206。
在一个方面,存储器1202、(诸)处理器1204、和/或接口电路1206被实现为分开的组件。在另一方面,存储器1202、(一个或多个)处理器1204、和/或接口电路***1206被集成在一个或多个集成电路中。便携式设备1200的各种组件可以例如通过一个或多个通信总线或信号线(例如,互连和/或导线)来耦合。在一个方面,存储器1202可以经由存储器接口(未示出)耦合到接口电路1206。
传感器、设备、子***和/或输入/输出(I/O)设备可以耦合到接口电路1206,以促进本文描述的功能和/或操作,包括传感器数据的生成。各种传感器、设备、子***和/或I/O设备可以直接或通过一个或多个中间I/O控制器(未示出)耦合到接口电路1206。
例如,位置传感器1210、光传感器1212和接近度传感器1214可以耦合到接口电路1206以分别促进便携式设备1200的定向、照明和接近度功能。位置传感器1210(例如,GPS接收器和/或处理器)可以连接到接口电路1206以提供地理定位传感器数据。电子磁力计1218(例如,集成电路芯片)可连接到接口电路1206以提供可用于确定用于定向导航的磁北方向的传感器数据。加速度计1220可以连接到接口电路1206以提供可以用于确定设备在三维中的移动的速度和方向的改变的传感器数据。高度计1222(例如,集成电路)可连接到接口电路1206以提供可用于确定高度的传感器数据。语音记录器1224可以连接到接口电路1206以存储记录的话语。
照相机子***1226可以耦合到光学传感器1228。光学传感器1228可以使用多种技术中的任何一种来实现。光学传感器1228的示例包括电荷耦合器件(CCD)、互补金属氧化物半导体(CMOS)光学传感器等。相机子***1226和光学传感器1228可以用于促进相机功能,诸如记录图像和/或视频剪辑(下文称为“图像数据”)。在一个方面中,图像数据是传感器数据的子集。
可以通过一个或多个无线通信子***1230来促进通信功能。无线通信子***1230可包括射频接收器和发射器、光(例如,红外)接收器和发射器等。(一个或多个)无线通信子***1230的具体设计和实现可以取决于所实现的便携式设备1200的具体类型和/或便携式设备1200旨在其上操作的(一个或多个)通信网络。
出于说明的目的,无线通信子***1230可以被设计为在一个或多个移动网络(例如,GSM、GPRS、EDGE)、可以包括WiMax网络的Wi-Fi网络、短距离无线网络(例如,蓝牙网络)和/或前述的任何组合上操作。(一个或多个)无线通信子***1230可以实现主机协议,使得便携式设备1200可以被配置为用于其它无线设备的基站。
音频子***1232可以耦合到扬声器1234和麦克风1236,以促进支持语音的功能,例如语音识别、语音复制、数字记录、音频处理和电话功能。音频子***1232能够生成音频类型传感器数据。在一个或多个实施例中,麦克风1236可以用作呼吸器传感器。
I/O设备1238可耦合到接口电路1206。I/O设备1238的示例包括例如显示设备、触敏显示设备、跟踪板、键盘、指示设备、通信端口(例如,USB端口)、网络适配器、按钮或其他物理控件等。诸如显示屏和/或板的触敏设备被配置为使用各种触敏技术中的任何一种来检测接触、移动、接触中断等。例如,示例触敏技术包括电容,电阻,红外,和表面声波技术,用于确定与触敏设备的一个或多个接触点的其他接近传感器阵列或其他元件,等等。I/O设备1238中的一个或多个可以适于控制便携式装置1200的传感器、子***等的功能。
便携式设备1200还包括电源1240。电源1240能够向便携式设备1200的各种元件提供电力。在一个实施例中,电源1240被实现为一个或多个电池。电池可以使用各种不同的电池技术中的任何一种来实现,无论是一次性的(例如,可替换的)还是可再充电的。在另一实施例中,电源1240被配置成从外部源获得电功率并向便携式设备1200的元件提供功率(例如,DC功率)。在可再充电电池的情况下,电源1240还可包括能够在耦合到外部电源时对一个或多个电池充电的电路。
存储器1202可以包括随机存取存储器(例如,易失性存储器)和/或非易失性存储器,诸如一个或多个磁盘存储设备、一个或多个光存储设备、闪存等等。存储器1202可以存储操作***1252,诸如LINUX、UNIX、移动操作***、嵌入式操作***等。操作***1252可以包括用于处理***服务和用于执行依赖于硬件的任务的指令。
存储器1202可以存储其它程序代码1254。其它程序代码1254的示例可包含用以促进与一个或多个额外装置、一个或多个计算机和/或一个或多个服务器通信的指令;图形用户界面处理;用以促进传感器相关功能的处理指令;电话相关功能;电子消息传递相关功能;与网页浏览相关的功能;媒体处理相关功能;GPS和导航相关功能;安全功能;与相机相关的功能,包括Web相机和/或Web视频功能;等等。存储器1202可以存储包括IPR程序代码1256的应用。存储器1202还可存储一个或多个其它应用1258。
所描述的各种类型的指令和/或程序代码是出于说明而非限制的目的而提供的。程序代码可以被实现为单独的软件程序、过程或模块。存储器1202可以包括附加的指令或更少的指令。此外,便携式设备1200的各种功能可以以硬件和/或软件来实现,包括以一个或多个信号处理和/或专用集成电路来实现。
存储在存储器1202内的程序代码和由便携式设备1200使用、生成和/或操作的任何数据是功能性数据结构,当用作设备的一部分时,其将功能赋予设备。功能性数据结构的进一步示例包括例如传感器数据、经由用户输入获得的数据、经由查询外部数据源获得的数据、基线信息等。术语“数据结构”是指数据模型在物理存储器内的数据组织的物理实现。这样,数据结构由存储器内的特定电或磁结构元件形成。数据结构对存储在存储器中由处理器使用的数据施加物理组织。
在某些实施例中,参考便携式设备1200描述的各种传感器和/或子***中的一个或多个可以是通过有线或无线连接耦合或通信地链接到便携式设备1200的单独设备。例如,位置传感器1210、光传感器1212、接近度传感器1214、陀螺仪1216、磁力计1218、加速度计1220、高度计1222、语音记录器1224、相机子***1226、音频子***1232等中的一个或多个(或全部)可以被实现为通过I/O设备1238和/或无线通信子***1230操作地耦合到便携式设备1200的单独的***或子***。
便携式设备1200可以包括比所示的更少的组件,或者包括除了图12所示的组件之外的附加组件,这取决于所实现的***的具体类型。另外,所包括的特定操作***和/或应用和/或其它程序代码也可根据***类型而变化。此外,一个或多个说明性组件可以被并入另一组件中,或者以其他方式形成另一组件的一部分。例如,处理器可以包括至少一些存储器。
提供便携式设备1200是为了说明而非限制的目的。被配置成执行本文所述操作的设备和/或***可以具有与图12所示不同的架构。该架构可以是便携式设备1200的简化版本,并且可以包括处理器和存储指令的存储器。该架构可以包括如本文所述的一个或多个传感器。便携式设备1200或类似***可以使用设备的各种传感器或耦合到其的传感器来收集数据。然而,应当理解,便携式设备1200可包括更少的传感器或其他附加传感器。在本公开中,由传感器产生的数据被称为“传感器数据”。
便携式设备1200的示例实现方式包括例如智能电话或其他移动设备或电话、可穿戴计算设备(例如,智能手表)、专用医疗设备或能够感测和处理传感器检测的信号和数据的其他合适的手持式、可穿戴或舒适可携带的电子设备。将理解,各实施例可被部署为独立设备或被部署为分布式客户机-服务器联网***中的多个设备。例如,在某些实施例中,智能手表可以可操作地耦合到移动设备(例如,智能电话)。移动设备可以被配置成与远程服务器和/或计算机***交互,也可以不被配置成与远程服务器和/或计算机***交互。
本文所用的术语仅是为了描述特定实施例的目的,而不是旨在进行限制。尽管如此,现在将呈现贯穿本文档应用的若干定义。
如本文所定义的,单数形式“一”、“一个”和“该”也包括复数形式,除非上下文另有明确指示。
如本文所定义,“另一个”是指至少第二个或更多。
如本文所定义的,“至少一个”、“一个或多个”、以及“和/或”是开放式表达,其在操作中是连接的和分离的,除非另外明确地陈述。例如,表达“A、B和C中的至少一个”、“A、B或C中的至少一个”、“A、B和C中的一个或多个”、“A、B或C中的一个或多个”以及“A、B和/或C”中的每一个表示单独的A、单独的B、单独的C、A和B一起、A和C一起、B和C一起、或A、B和C一起。
如本文所定义的,“自动地”意味着无需用户干预。
如本文所定义,“包括”、“包含”和/或“含有”指定所陈述的特征、整体、步骤、操作、元件和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元件、组件和/或其群组的存在或添加。
如本文所定义的,“如果”是指“响应于”或“响应”,这取决于上下文。因此,短语“如果确定”可以被解释为根据上下文意味着“响应于确定”或“响应确定”。同样,短语“如果[所述的条件或事件]被检测到”可以被解释为根据上下文意味着“在检测到[所述的条件或事件]时”或“响应于检测到[所述的条件或事件]”或或“响应检测到[所述的条件或事件]”。
如本文所定义的,“一个实施例”、“实施例”、“在一个或多个实施例中”、“在特定实施例中”或类似语言意味着结合实施例描述的特定特征、结构或特性被包括在本公开内描述的至少一个实施例中。因此,在本公开中出现的上述短语和/或类似语言可以但不必全部指代相同的实施例。
如本文所定义的,短语“响应于”和“响应”表示容易对动作或事件作出响应或反应。因此,如果“响应于”或“响应于”第一动作执行第二动作,则在第一动作的发生和第二动作的发生之间存在因果关系。短语“响应于”和“响应”指示因果关系。
如本文所定义的,“实时”意味着用户或***感觉到对于特定过程或要做出的确定足够即时的处理响应性水平,或者使处理器能够跟上某个外部过程的处理响应性水平。
如本文所定义的,“基本上”是指所述的特性、参数或值不需要精确地实现,但是偏差或变化,包括例如公差、测量误差、测量精度限制和本领域技术人员已知的其它因素,可以以不排除特性旨在提供的效果的量发生。
如本文所定义的,“用户”和“个体”各自指人类。
术语第一、第二等可以在这里用来描述各种元件。这些元件不应被这些术语限制,因为这些术语仅用于将一个元件与另一个元件区分,除非另有说明或上下文另有明确指示。
本发明可以是任何可能的技术细节集成水平的***、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),所述计算机可读程序指令用于使处理器执行本发明的各方面。
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于:电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置,以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络,例如因特网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据,或者以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,网络包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本发明的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
在此参考根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施例的***、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可以不按图中所注明的次序发生。例如,连续示出的两个框实际上可以作为一个步骤来实现,同时、基本同时、以部分或全部时间重叠的方式执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的***来实现。
已经出于说明的目的给出了本发明的各种实施例的描述,并且其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。本文所使用的术语被选择为最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims (14)

1.一种计算机实现的方法,包括:
对机器编码文件执行自然语言处理(NLP)以确定一个或多个文件分段分类器,其中,所述机器编码文件是经由数据通信网络被检索的;
通过执行计算机数据库搜索以查找在先前呈现给用户的电子内容内标识的与从所述机器编码文件提取的NLP元素匹配的NLP元素,来在所述机器编码文件内检测与所述一个或多个文件分段分类器对应的先前消费的内容,其中所述搜索是对于用户特定的消费语料库数据库执行的;以及
基于所述检测,修改用于将所述机器编码文件电子地呈现给用户的电子呈现结构,其中所述电子呈现结构被修改为将所述机器编码文件内对应于所述先前消费的内容的部分与所述机器编码文件的其他部分区分开。
2.根据权利要求1所述的方法,其中,修改电子呈现结构是响应于确定所述一个或多个文件分段分类器的上下文基础而执行的。
3.根据权利要求1所述的方法,还包括:
电子地跟踪用于接收电子呈现结构并将其电子地呈现给用户的设备的位置;以及
基于所述设备的位置修改所述电子呈现结构。
4.根据权利要求1所述的方法,还包括:
随后在用户检索所述机器编码文件之后检测对所述机器编码文件的一个或多个修订;以及
响应于检测一个或多个修订,使用指示新添加或修订哪些部分的另一电子呈现结构来呈现所述机器编码文件。
5.根据权利要求1所述的方法,其中,所述一个或多个文件分段分类器对应于通过执行无监督机器学习主题建模而发现的所述用户感兴趣的一个或多个主题,并且其中,所述主题建模基于由所述用户经由所述数据通信网络检索的多个机器编码文件来发现所述用户感兴趣的主题。
6.根据权利要求1所述的方法,其中所述一个或多个文件分段分类器对应于通过执行受监督机器学习主题分类而标识的所述用户感兴趣的一个或多个主题,并且其中,所述主题分类标识由用户在检索所述机器编码文件之前指定的主题。
7.根据权利要求1所述的方法,其中,先前呈现的电子内容包括在用户指定的时间间隔内经由数据通信网络先前检索的一个或多个机器编码文件。
8.一种计算机实现的,包括:
分析嵌入在呈现给用户的电子呈现结构中的电子媒体内容;
基于所述分析,来检测所述电子媒体内容的先前由所述用户消费的部分;以及
基于检测先前消费的一个或多个部分,修改所述电子呈现结构,以将先前由所述用户消费的电子媒体内容与所述电子媒体内容的其他部分区分开。
9.根据权利要求8所述的方法,其中,基于包括音频或视频的电子呈现结构,所述修改包括:
对于所述电子媒体内容的先前由所述用户消费的部分来加速音频或视频渲染速度;和/或
压缩所述音频或视频以消除所述电子媒体内容的先前由所述用户消费的部分。
10.根据权利要求8所述的方法,其中,基于包括文本的所述电子呈现结构,所述修改包括:
注释所述文本以将所述文本的与所述电子媒体内容的先前由所述用户消费的部分相对应的部分与所述文本的其他部分区分开;
修改一个或多个格式化标签以从所述文本的其他部分改变与所述电子媒体内容的先前由所述用户消费的部分相对应的所述文本的格式;或
提取所述文本的与所述电子媒体内容的先前由所述用户消费的部分相对应的部分。
11.根据权利要求10所述的方法,其中,所述提取包括用链接替换所提取的部分,所述链接指向所提取的部分被电子地存储于其中的数据库,以及如果用户希望将所提取的部分恢复到所述电子呈现结构,则提供指示用户链接到所述数据库的指令。
12.一种计算机实现的方法,包括:
检测在用户经由数据通信网络对机器编码文件的较早版本进行的早前检索之后对所述机器编码文件的一个或多个修订,其中所述检测包括对在所述机器编码文件的较早版本的电子内容内标识的自然语言处理(NLP)元素与在所述机器编码文件的修订版本的电子内容内标识的NLP元素的比较;以及
基于检测一个或多个修订,使用指示新添加或修订哪些部分的另一电子呈现结构来呈现所述机器编码文件。
13.一种***,包括:
存储器;以及
与所述存储器通信的处理器,所述处理器被配置为执行根据权利要求1至6中任一项所述的方法的步骤。
14.一种计算机程序产品,所述计算机程序产品包括:
一个或多个计算机可读存储介质和共同存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令可由处理器执行以使所述处理器发起根据权利要求1至7中任一项所述的方法的操作。
CN202111434346.9A 2020-12-11 2021-11-29 对先前呈现的材料的识别和重构 Pending CN114625699A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/119,850 US11437038B2 (en) 2020-12-11 2020-12-11 Recognition and restructuring of previously presented materials
US17/119850 2020-12-11

Publications (1)

Publication Number Publication Date
CN114625699A true CN114625699A (zh) 2022-06-14

Family

ID=81898069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111434346.9A Pending CN114625699A (zh) 2020-12-11 2021-11-29 对先前呈现的材料的识别和重构

Country Status (3)

Country Link
US (1) US11437038B2 (zh)
JP (1) JP2022093317A (zh)
CN (1) CN114625699A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11437038B2 (en) * 2020-12-11 2022-09-06 International Business Machines Corporation Recognition and restructuring of previously presented materials
US20230054480A1 (en) * 2021-08-19 2023-02-23 International Business Machines Corporation Viewpoint analysis of video data

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5806078A (en) 1994-06-09 1998-09-08 Softool Corporation Version management system
US20020078089A1 (en) 2000-12-14 2002-06-20 Bade Steven Allen Automatic bookmarking of web documents at receiving display stations of the world wide web based upon repetitive accessing of the documents
TW582022B (en) 2001-03-14 2004-04-01 Ibm A method and system for the automatic detection of similar or identical segments in audio recordings
US7685117B2 (en) 2003-06-05 2010-03-23 Hayley Logistics Llc Method for implementing search engine
US20070101256A1 (en) 2005-11-01 2007-05-03 Charles Simonyi Perfect source control
WO2007149216A2 (en) 2006-06-21 2007-12-27 Information Extraction Systems An apparatus, system and method for developing tools to process natural language text
US8356045B2 (en) 2009-12-09 2013-01-15 International Business Machines Corporation Method to identify common structures in formatted text documents
US20130332450A1 (en) 2012-06-11 2013-12-12 International Business Machines Corporation System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources
JP6070936B2 (ja) 2013-01-31 2017-02-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法及びプログラム
US9391938B2 (en) 2013-07-08 2016-07-12 International Business Machines Corporation Indicating in an electronic message whether a user has previously accessed content provided by a resource
US20150161194A1 (en) 2013-12-06 2015-06-11 Actifio, Inc. System and method for rapid estimation of data similarity
US10642935B2 (en) * 2014-05-12 2020-05-05 International Business Machines Corporation Identifying content and content relationship information associated with the content for ingestion into a corpus
US20160162576A1 (en) * 2014-12-05 2016-06-09 Lightning Source Inc. Automated content classification/filtering
US10249068B2 (en) 2015-04-29 2019-04-02 International Business Machines Corporation User experience for multiple uploads of documents based on similar source material
US10657098B2 (en) * 2016-07-08 2020-05-19 International Business Machines Corporation Automatically reorganize folder/file visualizations based on natural language-derived intent
US11107006B2 (en) * 2017-12-05 2021-08-31 discourse.ai, Inc. Visualization, exploration and shaping conversation data for artificial intelligence-based automated interlocutor training
US11423314B2 (en) * 2019-10-30 2022-08-23 Intuit Inc. Method and system for facilitating user support using multimodal information
US11437038B2 (en) * 2020-12-11 2022-09-06 International Business Machines Corporation Recognition and restructuring of previously presented materials

Also Published As

Publication number Publication date
JP2022093317A (ja) 2022-06-23
US11437038B2 (en) 2022-09-06
US20220189472A1 (en) 2022-06-16

Similar Documents

Publication Publication Date Title
US9923860B2 (en) Annotating content with contextually relevant comments
US11106877B2 (en) Dynamic text generation for social media posts
US10929909B2 (en) Media enhancement with customized add-on content
US10083031B2 (en) Cognitive feature analytics
CN110717337A (zh) 信息处理方法、装置、计算设备和存储介质
US10061761B2 (en) Real-time dynamic visual aid implementation based on context obtained from heterogeneous sources
US11057673B2 (en) Personalized content aggregation and delivery
US20180239767A1 (en) Computerized cognitive recall assistance
CN114625699A (zh) 对先前呈现的材料的识别和重构
US10547582B1 (en) Methods and systems for enhancing viewer engagement with content portions
WO2022017004A1 (en) Voice response systems based on personalized vocabulary and user profiling –personalized linguistics ai engines
CN111177462A (zh) 视频分发时效的确定方法和装置
US11275777B2 (en) Methods and systems for generating timelines for entities
US11561964B2 (en) Intelligent reading support
US20200226209A1 (en) Methods and systems for auto-filling fields of electronic documents
US10841663B2 (en) Methods and systems for managing content on multiple devices
US11734371B2 (en) Multi-sensory content authorship aid
US11921808B2 (en) Auto-evolving of online posting based on analyzed discussion thread
CN114730355B (zh) 使用隐藏字幕作为用于隐藏字幕定制***的并行训练数据
US11734588B2 (en) Managing domain competence during a computing session
CN111737972A (zh) 人机交互***中实现自然语言理解的方法和装置
US11520839B2 (en) User based network document modification
US11675822B2 (en) Computer generated data analysis and learning to derive multimedia factoids
CN111753080B (zh) 用于输出信息的方法和装置
US11804245B2 (en) Video data size reduction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination