CN111557000B - 针对媒体的准确性确定 - Google Patents

针对媒体的准确性确定 Download PDF

Info

Publication number
CN111557000B
CN111557000B CN201880085597.0A CN201880085597A CN111557000B CN 111557000 B CN111557000 B CN 111557000B CN 201880085597 A CN201880085597 A CN 201880085597A CN 111557000 B CN111557000 B CN 111557000B
Authority
CN
China
Prior art keywords
assertion
accuracy
search
tuple
electronic data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880085597.0A
Other languages
English (en)
Other versions
CN111557000A (zh
Inventor
V·康纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN111557000A publication Critical patent/CN111557000A/zh
Application granted granted Critical
Publication of CN111557000B publication Critical patent/CN111557000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了用于确定针对媒体的准确性的方法和***。在一个方面中,一种方法包括:识别正在对包括第一断言的一个或多个断言进行编码的电子数据对象的数据段;基于所述一个或多个断言来编译搜索查询;通过使用所述搜索查询进行第一信息搜索来生成搜索结果;识别与所述搜索结果中的和所述第一断言相关的搜索结果相关联的最近时间;基于搜索结果来生成针对所述第一断言的准确性加权;以及基于所述准确性加权来注释所述第一断言以指示断言的准确性。

Description

针对媒体的准确性确定
背景技术
在企业内部在不断地创建电子内容。随着时间的推移,当连续地创建电子内容时,组织可能积累大量的电子内容。这种电子内容对许多组织而言是有价值的资产,因为其经常记录技术、业务和对企业运营重要的其他内容。例如,现代会议***提供对会议的轻松记录,导致更多的雇员使用这些特征。结果,可以将大量记录的会议保存在组织的电子库中。遗憾的是,这些记录会有些模糊,限制组织针对内容进行索引和搜索这些会议的能力。例如,尽管会议的日期、时间、长度以及可能的主题都可以以元数据形式轻松获得,但是这些记录的会议经常包括关于会议的真实内容的很少的额外细节。这可能会降低组织利用这些记录中的内容的能力。类似地,其他形式的电子内容,诸如来自文字处理应用的文档,电子表格,演示文稿和图表,可能类似地模糊。因此,组织面临挑战以充分利用其内容库的价值。因此,需要表征、组织和利用电子内容库的经改进的方法。
附图说明
在不一定按比例绘制的附图中,相似的数字可以在不同的视图中描述相似的部件。具有不同字母后缀的相似数字可以表示相似部件的不同实例。附图通过示例而非限制的方式大体上图示了本文档中讨论的各种实施例。
图1示出了用于媒体准确性确定的示例性***。
图2是可以在至少一些所公开的实施例中实现的示例性数据流。
图3是图2的数据流的继续。
图4是上面相对于图1所讨论的媒体准确性引擎130和媒体注释引擎的高级视图。
图5是用于确定针对媒体的准确性分数的示例性方法的流程图。
图6是用于确定语句是有效还是无效的方法的示例性流程图。
图7是用于确定新断言是否验证另一断言的方法的示例性流程图。
图8图示了示例性机器800的框图,在机器800上可以执行在本文中所讨论的任何一种或多种技术(例如方法)。
图9是更新针对媒体的准确性分数的流程图。
图10示出了根据本公开的一些示例的示例性机器学习模块。
图11是用于对电子数据对象进行注释的方法的示例性流程图。
具体实施方式
如上文所讨论的,组织可以积累相对较大的电子内容或媒体的库。利用这个大型库具有许多挑战,包括了解随着时间的流逝,哪种电子内容或媒体仍然是相关的。在一些情况中,用户可能不适当地舍弃超过一定年限的电子内容,而其中一些内容可能仍然是非常相关的。一些用户可能依赖于最近创建的内容。然而,在一些情况下,尽管该内容相对年轻,但是该内容尤其在参考快速发展的技术领域时可能已经过时。因此,具有技术内容的大型库的组织面临如何识别库内的每个电子内容或媒体的相关性的技术问题。此外,一些电子内容可以包括包含相关内容的部分,以及包含过期、过时或者以其他方式对组织没有特殊价值的内容的另一部分。由于在电子库中包含的内容的相关性或准确性方面的不确定性,因此组织可能无法充分利用该内容。因此,其技术问题阻止了对其电子内容库所体现的资产的适当使用。此外,这些电子内容库可能消耗大量的存储资源。这不仅在对物理地存储该库所必需的存储硬件成本方面,而且也在与维护该电子内容库相关联的数据中心空间、利用度和人员成本方面,都可能给组织带来可观的成本。
所公开的实施例提供了针对上述技术问题的技术解决方案。这些解决方案使组织可以随着时间的推移而更深入了解电子内容的相关性和准确性。在一些方面中,所公开的实施例可以针对电子数据对象做出的断言来搜索电子内容或电子数据对象,诸如文档、演示文稿或绘图。所公开的实施例然后可以搜索各种信息源,包括互联网搜索引擎、特定于领域的数据库以及其他信息源,以验证断言或者使断言无效。根据该信息,可以确定电子数据对象的准确性的指示。
该准确性的指示可以用于各种目的,以辅助组织解决上述技术问题。准确性指示可以使组织更深入地了解其内容库内的电子内容的准确性,并且使组织能够就如何管理其内容库做出更好的决策。例如,在一些情况下,组织可以选择删除准确性较差的较新内容,而保留仍然相关的较旧内容。这与通常使用电子内容的年限来确定其相关性的大多数解决方案形成对比。另外,通过更好地理解电子内容库内的电子内容的准确性,组织可以更充分地利用电子内容库中存在的潜在价值。例如,相对于经由各种技术的不太准确的内容,访问更准确或相关的内容可能是优选的。在一些方面中,可以呈现用户界面以允许用户基于针对电子数据对象的列表中的每个电子数据对象建立的准确性分数来对所述列表进行排序。这可以允许用户快速地识别他们应当考虑的内容以及可能不值得他们花时间的其他内容。在一些情况下,归档策略也可以基于由所公开的实现方式建立的准确性指示。例如,可以将内容库中准确性低于预定阈值的部分进行存档,从而为更多相关内容释放存储空间,同时保留组织在每次需要时返回参考已存档内容的能力。
在一些方面中,所公开的实施例可以被应用于交互式数据,诸如群组消息传递对话,聊天会话,电子邮件对话等。为了识别来自电子数据对象的断言,一些实施例可以对图像执行光学字符识别、对音频数据执行语音到文本的转换等,以获得电子内容的文本版本。从电子内容中提取的文本然后可以被解析以识别断言。一些断言可能断言事实。例如,断言可以断言某个软件的最新版本是特定版本,或者针对特定产品的发布日期是特定日期。
然后,所公开的实施例可以在各种信息源中搜索用于证实电子数据对象的断言的信息。在一些方面中,可以对信息源进行优先化,使得从第一源取回的信息的排名比从第二源取回的信息的排名更高。在一些方面中,可以基于与电子内容相关联的元数据来扩大搜索。
如果经由在当前日期的预定时间段内生成的信息来验证断言,则所公开的实施例可以推断断言是有效的。如果未找到该断言的相对近的证实,则可以执行额外搜索。如果由该搜索返回的信息识别出与原始断言不兼容的新断言,则可以将原始断言确定为过时的。
在个体地证实(或未证实)电子内容中识别出的断言之后,基于电子内容中包含的断言的持续准确性或缺乏准确性,来对电子内容或电子数据对象进行准确性评估或加权。可以以多种方式来使用该准确性评估。例如,准确性评估可以作为元数据与电子内容包含在一起。因此,在一些方面中,其可以例如用作针对电子内容的搜索标准。
在一些实现方式中,可以基于个体断言的准确性评估在电子内容中对其进行注释。例如,在一些方面中,如果确定表示中的特定断言已过时,则可以在与该断言的表示相对应的时间处将指示断言缺乏准确性的注释添加到所述表示中。在一些方面中,该注释可以采用文本或音频的形式。
一些方面可以自动地更新被认为是不准确的断言。例如,在一些方面中,响应于断言的准确性分数,可以生成新的断言。新的断言可以基于原始的断言,但是被更新为包括从搜索获得的新数据。
现在转向图1,呈现了用于电子内容准确性确定的示例性***100。***100包括电子内容数据库120。所述电子内容数据库可以包括电子内容205的一个或多个个体片段。所述电子内容可以包括定义一个或多个断言的任何数据。例如,所述电子内容可以是文档,诸如文字处理文档、常规的基于web的文档格式(诸如html、xml或其他结构化的标记格式)、演示文稿(诸如由Microsoft 产生的)、绘图(诸如由Microsoft />产生的)、电子表格(诸如由Microsoft />产生的)、视频文件(诸如以由运动图像专家组(MPEG)开发的格式而码的)、音频文件、或者任何其他数据格式。电子内容数据库120可以由一个或多个用户设备来访问,诸如图1中所图示的用户设备105和/或110。在一些方面中,存储于电子内容数据库120内的电子内容可以由客户端设备经由一个或多个文档管理应用(诸如Microsoft />)来访问。在一些其他方面中,电子内容数据库120可以是Microsoft />文件***,并且因此,可以经由诸如Microsoft />的操作***文件***来访问电子内容数据库上的电子内容。
***100还包括电子内容准确性引擎130。电子内容准确性引擎130可以读取电子内容数据库120中的电子内容205,并且分析电子内容205以确定电子内容的准确性。例如,如上文所讨论的,可以识别电子内容内的断言。尽管这些断言在创建电子内容205时可能为真,但是随着时间的流逝,这些断言可能变为假。作为一个示例,地球的总人口为四(4)十亿人口的断言可能在1975年为真。然而,在2016年,该断言不再为真。
如下文更详细讨论的,基于对电子内容205的分析,电子内容准确性引擎130可以确定包含于电子内容数据库120中的电子内容205的准确性分数。在一些方面中,准确性引擎130可以将信息传递到电子内容注释引擎135。电子内容注释引擎135可以基于由电子内容准确性引擎130做出的确定来修改电子内容205。例如,由电子内容205做出的被电子内容准确性引擎130识别为不正确或过期的断言可以由电子内容注释引擎135注释为不准确或过期,使得电子内容205的未来视图可以受益于那些确定。
***100还包括一个或多个搜索引擎140,如在图1中示出为两个搜索引擎140A-B。电子内容准确性引擎130可以利用所述搜索引擎来搜索与电子内容205做出的断言和/或电子内容205断言的事实有关的信息。例如,在一些方面中,搜索引擎140A-B识别出的信息可以被用于使由电子内容205断言的某些事实无效。
尽管图1的***100被图示为包括物理上分离的设备(诸如用户设备105和110)以及电子内容准确性引擎130、电子内容注释引擎135以及搜索引擎140A-B,但是设想到了一些实施例,其组合了图1中所图示的和/或在下文关于比在图1所图示的那些更少的物理设备所描述的一个或多个结构和/或功能。在一些方面中,所述一个或多个结构和/或功能可以被组合成单个物理设备。例如,在一些方面中,诸如设备105或110中的任何一个设备的客户端设备可以在设备105或110本身上包括电子内容准确性引擎130和/或电子内容注释引擎135。在一些方面中,电子内容数据库120也可以被包含在用户设备105或110上。例如,在一些方面中,电子内容数据库120可以包括用户设备105或110的文件***的一部分。
图2是可以在至少一些所公开的实施例中实现的示例性数据流。从左边开始,图2示出了电子内容205。电子内容205可以包括文档、演示文稿、绘图、电子表格、视频、快照图像或者存储信息的任何电子数据中的任何一种。电子内容205可以是数据库、文件或者以任何结构化或非结构化形式的任何数据。电子内容引擎208读取电子内容205。所述电子内容引擎可以包括电子内容解析器210、语音到文本引擎215以及光学字符识别算法220。所述电子内容解析器可以读取电子内容205中包含的数据,并且识别第一文本数据。电子内容解析器210还可以识别电子内容205中的音频信息是否存在。电子内容解析器210可以将音频信息传递给语音到文本引擎215,语音到文本引擎215可以根据音频信息生成第二文本信息。所述电子内容解析器还可以识别电子内容205内的图像信息(如果存在的话)。所述电子内容解析器可以将图像信息传递给光学字符识别算法220,光学字符识别算法220可以基于电子内容205来生成第三文本数据。可以至少解析组合的第一、第二和第三文本数据以识别第一、第二和第三文本数据内的断言225。对于视频内容,可以通过语音到文本引擎215来处理音频,并且可以通过光学字符识别算法220来处理图像。
断言225由断言引擎250来读取。断言引擎250可以包括断言标识符252和断言证实器254。断言标识符252可以读取断言225以识别断言225内的一个或多个断言。所识别出的断言由断言标识符252提供给断言证实器254。断言证实器254可以搜索一个或多个信息源以针对与由断言标识符252识别出的断言的相关性找到证实信息。一些断言可能被证实,而其他断言可能不被证实。结果,所述断言引擎生成证实断言262a的列表和未证实断言262b的列表。
图3是图2的数据流的继续。图2的未证实断言262b被提供给断言无效器270。断言无效器试图反证由图2中所图示的过程开发的未证实断言262。断言无效器270因此生成以下项目的列表:无效断言272a,其是未证实断言262b中能由断言无效器反证的那些断言;以及未证实断言272b,其表示未证实断言262b中不能由断言无效器270反证或无效的部分。
准确性评分引擎270接收断言262a、无效断言272a和未证实断言262b,并且生成针对电子内容205的准确性分数272。电子内容注释器280接收电子内容205、无效断言272a和未证实断言262b,并且生成经注释的电子内容282。
图4是上文关于图1所讨论的电子内容准确性引擎130和电子内容注释引擎135的高级视图。上文参考图2和图3讨论了电子内容准确性引擎130和电子内容注释引擎135的部件。例如,在一个方面中,电子内容准确性引擎130可以包括电子内容引擎208、断言引擎250、断言无效器270和准确性评分引擎270。在一些方面中,电子内容注释引擎135可以至少包括电子内容注释器280。
为了避免以不必要的细节模糊发明主题,已经从图4中省略了与传达对发明主题的理解没有密切关系的各种功能部件(例如,模块、引擎和数据库)。然而,本领域技术人员将容易认识到,电子内容准确性引擎130和电子内容注释引擎135可以支持各种额外功能部件,以促进在本文中未具体描述的额外功能。
电子内容准确性引擎130和电子内容注释引擎135的以上引用的功能部件被配置为彼此通信(例如,经由总线、共享存储器、交换机或API)。这些部件共同促进对电子内容的分析以确定电子内容的准确性的水平,并且在一些方面中,促进对电子内容的注释以指示电子内容内所包括的断言的准确性。
计算机相关和互联网相关领域的技术人员应当理解,在图4中所图示的每个功能部件可以使用硬件(例如,机器的处理器)或者逻辑(例如,可执行软件)与用于执行逻辑的硬件(例如,机器的存储器和处理器)的组合来实现。例如,被包括为电子内容准确性引擎130和/或电子内容注释引擎135的一部分的任何部件可以物理地包括一个或多个硬件处理器410(例如,机器的一个或多个处理器的子集或之中)和被配置为执行针对该部件在本文中所描述的操作的硬件存储器的布置。作为另一示例,视频电子内容准确性引擎130和/或电子内容注释引擎135的任何部件可以包括软件,硬件或两者,其配置一个或多个处理器和存储器410的布置以执行针对该部件在本文中所描述的操作。因此,电子内容准确性引擎130和/或电子内容注释引擎135的不同部件可以包括并且配置这样的处理器410的不同布置或者这样的处理器410在不同时间点处的单个布置。在一些方面中,处理器和存储器410可以等同于下文关于图8所讨论的处理器802和存储器804。
此外,在图4中所描绘的各种功能部件可以驻留在单个机器(例如,客户端设备或服务器)上,或者可以以诸如基于云的架构的各种布置跨若干机器来分布。此外,这些部件中的任何两个或更多个部件可以被组合成单个部件,并且在本文中针对单个部件所描述的功能可以被细分为多个部件。这些部件的功能细节在下文参考图5-9进行描述。
图5是用于确定针对电子内容的准确性分数的示例性方法的流程图。在一些方面中,下文关于过程500和图5所讨论的一个或多个功能可以由上文参考图4所讨论的(一个或多个)处理器410来执行。例如,在电子内容引擎208、断言引擎250、断言无效器270和准确性评分引擎270中的一个或多个中存储的指令可以配置一个或多个硬件处理器410以执行下文所讨论的一个或多个功能。
在框510中,接收电子内容。所述电子内容可以例如是上文所讨论的电子内容205。所述电子内容可以包括元数据。
在框520中,从所述电子内容中识别文本。例如,如上文所讨论的,在一些方面中,电子内容引擎208的电子内容解析器210可以识别在框510中接收到的电子内容中的第一文本数据、音频数据或图像数据中的一个或多个。在一些方面中,所述音频数据可以运行语音到文本应用以从音频数据生成第二文本数据。在一些方面中,光学字符识别过程可以被应用于图像数据以生成第三文本数据。在各个方面中,可以由框520来识别第一文本数据、第二文本数据和第三文本数据中的一个或多个。在一些方面中,可以从电子内容中包含的元数据获得第一文本数据的至少一部分。例如,如上文所讨论的,所述电子内容可以包括内容数据和元数据。
在框530中,从文本中识别一个或多个断言。例如,在各个方面中,框530可以利用一个或多个自然语言解析器(NLP),诸如Stanford解析器、spaCy或谷歌的云自然语言API。在一些方面中,机器学习可以被用于从文本中识别断言。例如,如下文关于图10进一步讨论的,在一些方面中,可以使用训练数据来训练分类器。所述训练数据可以包括训练文本。所述训练数据还可以包括注释数据。所述注释数据可以识别训练文本内的断言。使用训练数据,可以构建模型来训练所述分类器。一旦训练了分类器,就可以将其他文本提供给分类器,并且分类器可以识别形成断言的文本和未包含在断言中的其他文本。在一些示例中,可以基于一个或多个语法规则来确定断言。在一些方面中,框530可以使用经训练的分类器来识别文本中的断言。
在框550中,确定每个识别出的断言是有效还是无效的。下文参考图6更详细地解释框550的一个实施例。
在框560中,如在框550中所确定的,基于断言的无效性和/或有效性来确定电子内容的准确性分数。例如,在一些方面中,所述准确性分数可以表示在电子内容中准确的断言的百分比。还设想到了其他实现方式。例如,在准确性确定中,一些断言可能比其他断言的权重更大。例如,如果特定断言涉及表示相对较大百分比的电子内容的一部分电子内容,则在准确性确定中该特定断言可以接收比与电子内容的第二较小部分相关联的第二断言更大的权重。在一些方面中,电子内容的各部分可以由电子内容中的部分描绘符来识别。例如,如果电子内容是文档,则描绘符可以是章节标题或分节符。如果电子内容是演示文稿,则在一些方面中,描绘符可以是演示文稿内的标题幻灯片或幻灯片母版的更改。
在一些方面中,确定出的准确性分数被写入到输出设备。在一些方面中,所述输出设备可以是稳定的存储设备,诸如硬盘。在一些方面中,可以将准确性分数写入到与电子内容本身相关联的元数据。例如,所述电子内容和元数据可以被存储在单个文件中。在一些方面中,确定出的准确性分数可以被写入到网络。在一些方面中,所述输出设备可以是网卡。例如,所述准确性分数可以被写入到能通过网络访问的文件或数据库。
在一些方面中,一个或多个应用可以使用所述准确性分数来向电子内容的用户提供额外信息。例如,在一些方面中,用户界面可以基于电子内容的元数据中所包括的准确性分数来提供对电子内容文件的排序。在一些方面中,可以实现电子内容准确性的各种视觉表示。例如,在一些方面中,第一图标可以被用于表示准确性满足第一标准的电子内容,而第二图标可以被用于表示准确性满足第二标准的电子内容。例如,文件浏览器应用可以显示准确性等级。
在框580中,可以基于准确性分数来注释电子内容。例如,在一些方面中,注释可以采取至少元数据、音频数据或图像数据中的一个或多个的形式。例如,如果确定电子内容的特定部分具有较低的准确性(例如,满足标准的准确性),则可以将指示这样的情况的图像注释***电子内容中。替代地,在一些方面中,所述图像注释可以将更准确的信息***电子内容中。可以***所述***的注释,以便模糊过时或不准确的信息。例如,过时或不准确的信息可能以第一注释涂白或涂黑。例如,然后可以将包括更准确的信息的第二注释***在涂白或涂黑区域的顶部。替代地,如果电子内容中的不准确信息是音频形式,则可以在不准确音频信息的有限接近度内的位置处***音频注释。例如,不准确信息可以以第一注释发出“嘟嘟”声,并且可以***准确的音频信息的第二注释。
在一些方面中,对电子内容进行注释可以包括将电子内容的部分移动到电子内容内的不同位置。例如,准确性分数低于阈值的电子内容可以被移动到电子内容的“结束”或“末尾”。“结束”或“末尾”可以是在“播放”操作期间播放的电子内容的最后部分。例如,演示文稿的最后一张或多张幻灯片可以被视为演示文稿的“结尾”或“末尾”。当播放电子内容时,电子内容的(一个或多个)过时部分的新位置可以在随后的内容序列中。
图6是用于确定断言是有效还是无效的方法的示例性流程图。在一些方面中,下文关于图6所讨论的一个或多个功能和过程550可以由上文关于图4讨论的在一些方面中由处理器410来执行。例如,存储于电子内容引擎208、断言引擎250、断言无效器270和准确性评分引擎270中的一个或多个中的指令可以配置一个或多个硬件处理器410以执行下文所讨论的示例性过程550的一个或多个功能。
在框605中,识别断言。例如,可以从上文所讨论的过程500的框530中识别出的一个或多个断言来识别断言。在一些方面中,框605可以接收从电子内容(诸如媒体文件)导出的文本数据。然后,框605可以从文本中识别一个或多个句子。在一些方面中,框605可以利用自然语言工具套件(NLTK)将文本分割为句子。每个句子可以由分词器进一步划分为词语。在一些方面中,在框605中识别出的每个句子可以被认为是断言。在一些方面中,句子可以被构造为元组,其组成部分包括主题、对象以及在主题与对象之间的关系。在一些方面中,所述元组可以经由开放信息交换(OIE)库(诸如能从Stanford University获得的OIE库)来生成。
在一些方面中,命名的实体检测可以被用于标记每个断言的部分。命名的实体检测可以依赖于将实体映射到类别和/或公知名称的数据库。然后可以执行关系检测以识别断言内的实体之间的关系。该过程的结果可能是包括具有命名的实体的结构化数据的元组的集合。所述实体可以通过关系接合。然后,可以将在框605中生成的每个元组视为断言事实的数据。然后,每个元组可以是个体可验证的。
框615搜索该断言的证实。所述搜索可以针对信息依赖于一个或多个数据源。在一些方面中,可以基于主题对数据源进行优先化。例如,所述断言可以被分类为多个主题之一。信息源可能与一个或多个主题相关联。当选择信息源时,框615可以选择与断言的主题相关联的信息源。
框620确定在框615的搜索中对断言的证实的最新时间。例如,框615可以根据其搜索来识别若干断言。在一些方面中,可以通过开放信息交换(OIE)库来分析断言和搜索结果两者,以生成包含主题、对象和关系的元组。然后,可以将搜索结果过滤为包括与原始断言等效的主题和等效关系的那些搜索结果。从该经过滤的元组集中,具有相同对象的元组将证实该断言,而具有不同对象的元组将使该断言无效。
在框615中识别出的证实的示例可以各自具有相关联的日期。例如,针对断言的证实的互联网搜索可以识别在互联网上具有特定可用性时间的文档。
框625搜索没有元组的被断言对象的断言。例如,如上文所讨论的,所述断言可以由包括主题、对象以及在主题与对象之间的关系的元组进行表示。例如,在“地球上的人口为40亿”的断言中,断言可以被分为三部分(地球人口,等于,40亿)。在框630中导出的新断言可以仅包括断言的主题和关系部分,而不包括断言的对象部分。作为另一示例,如果框615的断言断言“Microsoft 版本8”,则框630可以搜索“Microsoft版本”的断言。框625还搜索在框620中找到的证实结果之后的结果。
在框630中,从在框625中识别出的搜索结果中导出新的断言。作为一个示例,所述搜索结果可以包括与“地球人口”有关的断言的多个版本。例如,结果可能指示地球人口为60、70、80或90亿。可以使用各种技术对这些结果进行排名或排序,这些技术可以根据实施例而变化。图7更详细地描述了一个示例性实施例。例如,一些实施例可以通过与个体结果相关联的日期对结果进行排名或排序。在这些实施例中,最新的结果可以优先于较旧的结果。因此,在上面的示例中,如果90亿的值是最新的,则可以将该结果选择为“新断言”。
决策框635确定新断言(例如“地球人口为9人”)是否验证第一断言。如果新断言验证了第一断言,则过程550移至框640,并且将第一断言标记为准确的。在一些方面中,框640可以递增准确断言的计数。例如,如上文关于框570所讨论的,该计数可以被用于确定包括第一断言的电子内容的准确性分数。在框640之后,过程550移动到下面所讨论的判定框650。
如果新断言没有验证第一断言,则过程550移动到框645,其将第一断言标记为不准确的。框645还可以递增对特定电子内容的不准确断言的计数。该第二计数也可以被用于确定包括第一断言的电子内容的准确性分数,例如,如上文关于框570所讨论的。在框645完成之后,过程550移动到框650,该框650确定是否存在额外的待处理的断言。如果存在,则处理可以返回到框605,在框605处识别额外的断言,并且过程550如上所述重复。如果不存在更多的断言待处理,则过程550从决策框650移动到额外处理。在一些方面中,以上关于图5所讨论的过程500的框560和/或框570可以在框650的完成之后。
图7是用于确定新断言是否验证另一断言的方法的示例性流程图。在一些方面中,下文关于图7所讨论的一个或多个功能和过程630可以由上文关于图4所讨论的在一些方面的处理器410实现。例如,在电子内容引擎208、断言引擎250、断言无效器270和准确性评分引擎270中的一个或多个中存储的指令可以配置一个或多个硬件处理器410以执行下文讨论的示例性过程550的一个或多个功能。在一些方面中,图4的一个或多个硬件处理器410可以等同于下文关于图8所讨论的处理器802。
在框705中,基于断言来识别主题或类别。在一些方面中,包含在电子内容205中的元数据可以识别主题或类别。在一些方面中,来自电子内容205的非元数据内容(诸如文本、音频信息和/或图像或视频信息中的一个或多个)可以被用于导出主题或类别。例如,在一些方面中,框705可以包括基于特定组中所包括的断言之间的公共性,将包含在电子内容205中的断言分类为多个组或主题。例如,在一些方面中,在断言内的关键字可以被用于将断言分类为组。例如,共享公共关键字的断言可以被包含在单个组中。在一些方面中,可以使用在多个断言中找到的多个词语之间的关系来将断言分类为单个组或不同组。例如,包括词语“计算机”、“处理器”或“软件”的断言可以被分类为“信息技术”主题或类别,而包括词语“健康”、“患者”或“结果”的断言可以被分类为“健康”主题或类别。在一些方面中,可以利用潜在的Dirichlet分配(LDA)来对断言进行分类。
在框710中,基于主题或类别来选择信息源。例如,***100可以维护信息源的列表。例如,搜索引擎140a和140b可以是列表中所包括的信息源的示例。列表中的每个信息源都可以具有与其相关联的一个或多个主题或类别。如果特定类别或主题与信息源相关联,则这可能指示该信息源有资格获得与特定类别或主题相关的数据。在一些方面中,信息源的选择可以基于与正在被搜索的电子内容205相关联的元数据。例如,每个信息源可以具有与之关联的优先级。信息源的选择可以基于优先级。优先级可以由例如如上所述的信息源是否被指定为针对类别或主题的源来实现。在一些方面中,优先级还可以由电子内容205中的元数据来实现。
因此,框710可以通过确定列表中与框705的主题或类别相关联的信息源的子集来选择信息源。在一些方面中,信息源的列表可以由管理员配置。列表中每个信息源的优先级也可以由管理员配置。例如,可以呈现用户界面,所述用户界面被配置为接收定义信息源列表和(可选地)其各自的优先级的输入。配置所述列表可以包括输入指示针对信息源的查询格式和互联网地址的信息。该列表可能特定于一个或多个主题或类别。因此,在一些方面中,所述用户界面被配置为将针对一个或多个主题或类别的组的列表相关联。单独的列表可以与一个或多个主题或类别的不同组相关联。因此,可以为多个主题/类别组支持多个列表。
在框715中,在所选择的信息源中搜索与断言有关的信息。如以上关于图6所讨论的,在一些方面中,断言可以由包括主题、对象和在主题与对象之间的关系的元组来表示。框715可以针对断言搜索所选择的信息源。例如,如果断言是“Microsoft 版本8是最新版本”,则可以将该断言分为主题为“Microsoft />”、关系为“最新版本”和对象为“版本8”的元组。因此,在框715中,可以在所选择的信息源中搜索“Microsoft最新版本”。搜索的结果也可以被构造为元组。一些结果可以包括与第一断言的主题和关系等效的主题和关系。因此,可以过滤搜索结果以仅包括具有与第一断言等效的主题和关系的那些结果。
在框720中,对框715中的搜索结果进行排名。取决于实施例,对搜索结果的排名可以基于各种因素。例如,在一些方面中,所述排名可以考虑与特定搜索结果相关联的日期、提供搜索结果或由信息源指派给结果的排名的信息源的优先级中的一项或多项(例如,通过搜索结果的Microsoft 的排名)。在一些方面中,搜索结果可以包括在用户论坛或社交社区上提供的答案。例如,第一用户可以向在线论坛或社区发布问题。第二用户的响应可以包括与框705的主题或断言有关的信息。一些方面可以在确定如何对搜索结果进行排名时考虑相对于论坛的响应的一个或多个特性。例如,可以将来自论坛或社区的“正确答案”指示、社区针对结果指示的投票数量、社区结果标记的数量、以及社区是否识别出发布结果的用户作为信任用户中的一个或多个用于确定搜索结果的优先化。
框725根据搜索结果来确定新断言。在一些方面中,所述搜索结果可以是文本的形式或诸如XML的结构化数据的形式。在这些情况下,可以使用已知的文本或结构化的文档解析器从搜索结果中提取新断言。在一些方面中,搜索结果可以包括图像和/或视频和/或音频数据。在这些方面中,可以首先执行到文本形式的转换。例如,语音到文本算法可以在音频形式的搜索结果上运行。可以对包括图像(诸如快照单幅图像或包括多个视频(图像)帧的视频)的任何搜索结果执行光学字符识别过程。例如,如上所述,在一些方面中,结果可以被下过滤为提供新断言的单个结果。结果可能包括诸如“Microsoft Windows 3.1是最新版本”、“最近发布的Microsoft Windows 95具有若干突破性改进”和“Microsoft Windows版本10的新功能”之类的信息。可以通过例如与每个个体结果相关联的日期以及在一些方面的其他标准,来对这些结果进行排名。在这种假设下,指示“Microsoft Windows版本10中的新功能”的结果可能是最新的结果。因此,框725可以基于以上的断言以及来自框720的结果来确定新断言“Microsoft Windows版本10是最新版本”。
在框730中,确定新断言是否验证第一断言。所述确定基于满足标准的结果。在一些方面中,满足标准的搜索结果可以包括优先级高于优先级阈值的搜索结果。对第一断言的验证可以包括验证第一断言。例如,如果第一断言指示地球包括四十亿人,而搜索结果指示地球包括九十亿人,则可以将第一断言确定为无效。相反,如果第一断言指示当前的Microsoft 版本是版本十(10),而搜索结果指示各种Microsoft />版本号,但是版本10是找到的最高版本,则结果将验证第一断言。
在一些方面中,框730可以利用上文关于框605所描述的一些技术。例如,在一些方面中,可以在新断言中识别实体,并且还可以建立实体之间的关系。可以将新断言中的一个或多个实体和(一个或多个)关系与在第一断言中识别出的一个或多个实体和(一个或多个)关系进行比较,以确定第一断言是否被验证。
图8图示了示例性机器800的框图,在机器800上可以执行在本文中所讨论的任何一种或多种技术(例如,方法)。在替代实施例中,机器800可以作为独立设备来操作,或者可以被连接(例如,联网)到其他机器。在联网的部署中,机器800可以在服务器-客户端网络环境中以服务器机器、客户端机器或者这两者的能力来操作。在示例中,机器800可以在对等(P2P)(或其他分布式)网络环境中充当对等机器。机器800可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、智能电话、web设备、网络路由器、交换机或桥、服务器计算机、数据库、会议室设备、或者能够执行指定了机器将采取的动作的指令(顺序或者以其他方式)的任何机器。机器800可以全部或部分地实现:用户设备105、110,电子内容准确性引擎130,电子内容注释引擎135,搜索引擎140A-B。在各种实施例中,机器800可以执行上文参考图5-7或者以下的图9所描述的一个或多个过程,并且配置有在图4中所示的部件以实现电子内容准确性引擎130和电子内容注释引擎135中的一个或多个。此外,尽管仅图示了单个机器,但是术语“机器”也应当被理解为包括个体或联合地执行指令集合(或多个集合)以执行在本文中所讨论的任何一种或多种方法(诸如云计算、软件即服务(SaaS)、其他计算机集群配置)的任何机器集合。
如在本文中所描述的,示例可以包括逻辑或多个部件、模块或机制(以下均称为“模块”)或可在其上操作。模块是能够执行指定操作的有形实体(例如,硬件),并且可以以某种方式被配置或布置。在示例中,可以以指定的方式将电路(例如,内部地或相对于诸如其他电路的外部实体)布置为模块。在示例中,一个或多个计算机***(例如,独立的客户端或服务器计算机***)或者一个或多个硬件处理器的全部或部分可以由固件或软件(例如,指令、应用部分或应用)配置为操作以执行指定操作的模块。在示例中,所述软件可以驻留在机器可读介质上。在示例中,软件当由模块的基础硬件执行时,使硬件执行指定的操作。
因此,术语“模块”应当理解为包括有形实体,所述有形实体是物理构造、具体配置(例如,硬接线)或临时(例如,暂时地)配置(例如,编程)以指定方式进行操作或者执行在本文中所描述的任何操作的部分或全部。考虑到其中模块被临时配置的示例,每个模块都不需要在任何时刻被实例化。例如,在模块包括使用软件配置的通用硬件处理器的情况下,通用硬件处理器可以在不同时间被配置为各自的不同模块。软件可以相应地配置硬件处理器,例如,以在一个时间实例处构成特定模块,并且在不同的时间实例处构成不同的模块。
机器(例如,计算机***)800可以包括硬件处理器802(例如,中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核心或者其任意组合)、主存储器804和静态存储器806,其中的一些或全部可以经由互连链路(例如,总线)808彼此通信。机器800还可以包括显示单元810、字母数字输入设备812(例如,键盘)、用户界面(UI)导航设备814(例如,鼠标)。在示例中,显示单元810、输入设备812和UI导航设备814可以是触摸屏显示器。机器800可以另外地包括存储设备(例如,驱动单元)816、信号生成设备818(例如,扬声器)、网络接口设备820,以及一个或多个传感器821,诸如全球定位***(GPS)传感器、指南针、加速度计或其他传感器。机器800可以包括输出控制器828,诸如串行(例如,通用串行总线(USB)、并行或其他有线或无线(例如,红外(IR)、近场通信(NFC)等)连接以通信或控制一个或多个***设备(例如,打印机、读卡器等)。
存储设备816可以包括机器可读介质822,在机器可读介质822上存储有体现在本文中所描述的任意一个或多个技术或功能或者由其利用的数据结构或指令824(例如,软件)的一个或多个集合。指令824还可以在由机器800执行期间完全或至少部分地驻留在主存储器804内、在静态存储器806内、或在硬件处理器802内。在示例中,硬件处理器802、主存储器804、静态存储器806或存储设备816之一或任意组合可以构成机器可读介质。
尽管机器可读介质822被图示为单个介质,但是术语“机器可读介质”可以包括被配置为存储一个或多个指令824的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的高速缓存和服务器)。
术语“机器可读介质”可以包括能够存储、编码或承载由机器800执行的指令并且使得机器800执行本公开的任何一种或多种技术的任何介质,或者能够存储、编码或承载由这样的指令使用或者与这样的指令相关联的数据结构。非限制性机器可读介质示例可以包括固态存储器以及光学和磁性介质。机器可读介质的特定示例可以包括:非易失性存储器,诸如半导体存储器设备(例如,电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和闪存设备;磁盘,诸如内部硬盘和可移动磁盘;磁光盘;随机存取存储器(RAM);固态硬盘(SSD);以及CD-ROM和DVD-ROM磁盘。在一些示例中,机器可读介质可以包括非瞬态机器可读介质。在一些示例中,机器可读介质可以包括不是瞬态传播信号的机器可读介质。
指令824还可以经由网络接口设备820使用传输介质在通信网络826上发送或接收。机器800可以利用多种传输协议中的任何一种传输协议(例如,帧中继、互联网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传输协议(HTTP)等)与一台或多台其他机器进行通信。示例性通信网络可以包括局域网(LAN)、广域网(WAN)、分组数据网络(例如,互联网)、移动电话网络(例如,蜂窝网络)、普通老式电话(POTS)网络、以及无线数据网络(例如,电气和电子工程师协会(IEEE)802.11标准族,被称为IEEE 802.16标准族,称为/>)、IEEE 802.15.4标准族、长期演进(LTE)标准族、通用移动电信***(UMTS)标准族、对等(P2P)网络等。在示例中,网络接口设备820可以包括一个或多个物理插孔(例如,以太网、同轴或电话插孔)或者一个或多个天线以连接到通信网络826。在示例中,网络接口设备820可以包括多个天线以使用单输入多输出(SIMO)、多输入多输出(MIMO)或多输入单输出(MISO)技术中的至少一种进行无线通信。在一些示例中,网络接口设备820可以使用多用户MIMO技术进行无线通信。
图9是更新电子内容的准确性分数的流程图。在一些方面中,下面关于图9所讨论的一个或多个功能和过程900可以由上文关于图4所讨论的在一些方面中由处理器410来执行。例如,存储在电子内容引擎208和准确性评分引擎270中的一个或多个中的指令可以配置一个或多个硬件处理器410以执行下文所讨论的示例性过程900的一个或多个功能。在一些方面中,可以结合上文所讨论的过程500、550和/或630中的任何一个或多个过程来执行下文所讨论的过程900。
在框905中,播放电子内容的一部分。换言之,一些电子内容可以促进播放功能,所述播放功能基于所述电子内容定期地生成输出。播放功能的示例是熟悉的,但是可以包括播放视频、音频记录、Microsoft 幻灯片演示或者其他播放功能。
决策框908确定查看电子内容的一部分的用户是否跳过了该部分。例如,框908可以确定是否从用户接收到指示快进操作的输入或者将导致该部分不被播放的其他输入。所述输入可以请求回放电子内容中在播放序列中在框905所播放的部分之后的一部分。如果该部分被跳过,则过程900移动到框925,下面将更详细地讨论。否则,过程900从框908移动到框910。
在框910中,执行图像捕获或音频捕获中的一个或多个。图像捕获和/或音频捕获可以捕获用户在观看框905的电子内容部分的播放时的反应。
在框915中,可以基于图像捕获来确定用户的面部表情。替代地或另外地,可以在框910中对音频捕获执行语音到文本操作。文本可以表示用户在观看电子内容部分时做出的词语或表情。
在框920中,确定电子内容部分的准确性指示。如果在框908中用户未跳过该部分,则可以在框920中基于面部表情和表示词语或表情的文本中的一项或多项来确定准确性指示。如果用户跳过了该部分,则准确性指示可以反映这样的断言:用户没有找到足够相关的部分来继续观看。
在框925中,基于框920中确定出的准确性指示来更新电子内容的准确性分数。在一些方面中,所述准确性指示可以导致针对电子内容的减少的准确性分数。例如,在一些方面中,单个用户跳过该部分可能导致框920中的否定的准确性指示,但是可能不影响框925中的准确性分数。一些实现方式可以将一个或多个标准应用于用户动作或准确性指示,以确定如何更新准确性分数。例如,如果多于阈值数量的用户跳过特定部分(导致框925接收到针对该特定部分的多个否定的准确性指示),则针对电子内容的准确性分数可能会降低。在一些方面中,在准确性分数受用户动作影响之前,一部分的观看或回放的总数可能需要越过第二阈值。一些方面可以向用户征求关于电子内容的准确性的反馈。可以汇总来自多个用户的反馈以确定如何更新针对电子内容的准确性分数。在一些方面中,一个或多个用户的重复回放可以导致准确性分数的增加。在一些方面中,框925可以更新以上所讨论的在图5的框560中确定出的准确性分数。
如果电子内容包括额外部分,则过程900返回到框905。否则,处理继续。
如前所述,所述***可以基于一种或多种机器学习算法来计算一种或多种转化率、相关率等。
图10示出了根据本公开的一些示例的示例性机器学习模块1000。机器学习模块1000利用训练模块1010和预测模块1020。训练模块1010将历史信息1030输入到特征确定模块1050中。历史信息1030可以被标记。示例性历史信息可以包括存储在文本或语句的训练库中的文本或语句。标签可以指示文本或语句中提供断言的部分。
特征确定模块1050根据该历史信息1030来确定一个或多个特征1060。一般而言,特征1060是输入的信息的集合,并且是被确定为预测特定结果的信息。在一些示例中,特征1060可以是所有历史活动数据,但是在其他示例中,特征1060可以是历史活动数据的子集。机器学习算法1070基于特征1060和标签来产生模型1080。
在预测模块1020中,当前信息1090可以被输入到特征确定模块1010。特征确定模块1010可以根据当前信息1090确定与根据历史信息1030确定出的特征确定模块1050相同的特征集合或不同的特征集合。在一些示例中,特征确定模块1010和1050是相同的模块。特征确定模块1010产生特征向量1015,特征向量1015被输入到模型1080中以生成响应分数1095的可能性。训练模块1010可以以离线方式来操作以训练模型1080。然而,预测模块1020可以被设计为以在线方式来操作。应当注意,可以经由额外训练和/或用户反馈来周期性地更新模型1080。
机器学习算法1070可以从许多不同的潜在有监督或无监督的机器学习算法中选择。有监督学习算法的示例包括人工神经网络、贝叶斯网络、基于实例的学习、支持向量机、决策树(例如,迭代二分法3、C4.5、分类和回归树(CART)、卡方自动交互检测器(CHAID)等)、随机森林、线性分类器、二次分类器、k最近邻、线性回归、逻辑回归、以及隐马尔可夫模型。无监督学习算法的示例包括期望最大化算法、向量量化和信息瓶颈方法。无监督模型可以不具有训练模块1010。在示例性实施例中,使用回归模型,并且模型1080是对应于特征向量1060、1015中的每个特征向量的学习重要性的系数的向量。为了计算分数,获取特征向量1015与模型1080的系数向量的点积。
图11是用于对电子数据对象进行注释的示例性方法的流程图。图11描述了一种过程,由此可以扫描诸如文件的电子数据对象以确定其准确性。在一些方面中,所述文件可以是演示文件、文字处理器文件、文本文件、视频或者可以编码人类语言的任何文件。在电子数据对象中编码的语言可以是文本、图像、二进制或音频形式中的一种或多种。如下所述,过程1100可以从其各种形式提取该自然语言并且识别由自然语言做出的断言。然后可以通过各种信息源来验证所述断言。在一些方面中,用于验证断言的信息源的类型可以取决于断言所属的一般主题领域。一些信息源可能是互联网搜索引擎,而其他信息源可能是私有收费数据库。
在通过搜索验证断言或使断言无效之后,结果可以被反映在准确性加权中,该准确性加权可以针对个体断言来生成,并且在一些方面可以被汇总以形成对电子数据对象本身的准确性评估。该准确性评估可以被用于各种目的。例如,在一些方面中,可以将针对文件的准确性评估写入到文件元数据中。例如,一些用户界面可以提供对准确性评估的显示作为文件浏览器用户界面中的列。这可以提供基于其确定出的准确性来对文件集合进行排序的功能,从而允许用户快速地隔离最准确的信息。
在一些方面中,下文关于图11所讨论的一个或多个功能和过程1100可以由上文关于图4讨论的在一些方面中的处理器410来执行。例如,存储在电子内容引擎208和准确性评分引擎270中的一个或多个中的指令可以配置一个或多个硬件处理器410以执行下文所讨论的示例性过程1100的一个或多个功能。在一些方面中,可以结合上文所讨论的过程500、550和/或630中的任何一个或多个来执行下文所讨论的过程1100。
在框1105中,识别电子数据对象的对一个或多个断言进行编码的数据段。断言至少包括第一断言。在一些方面中,框1105可以包括从数据段导出文本信息。在各个方面中,所述数据段可以包括音频数据、图像数据或文本数据。框1105可以在各个方面中使用语音到文本和/或光学字符识别技术来分别从音频和/或视频/图像数据中提取文本。一旦获得文本,就可以将文本馈送到自然语言处理器以识别一个或多个断言。
一些方面可以使用开放信息提取(OIE)以从自数据段获得的文本中提取语句或断言。例如,在一些方面中,可以使用从斯坦福大学可获得的作为斯坦福核心自然语言处理库的一部分包括的开放信息提取库。断言可以被构造为元组,其中每个元组包括主题、对象以及在主题与对象之间的关系。因此,例如,在一些方面中,断言Microsoft Windows 95是操作***的最新版本(Microsoft Windows,95,最新版本)将是元组。
一些方面可以使用机器学习来识别断言。例如,在一些方面中,可以使用训练数据集来训练分类器。所述训练数据可以具有包括断言的文本以及不包括断言的其他文本。对所述分类器的训练可以使得分类器能够通过开发分离不同类型文本的规则来区分包括断言的语句和不包括断言的语句。
在框1110中,基于识别出的一个或多个断言来编译搜索查询。在一些方面中,所述搜索查询可以包括主题和来自表示断言的元组的关系。在一些方面中,所述搜索查询可以不包括对象。例如,如果表示经由上述OIE识别出的断言的元组是(Microsoft Windows,“最新版本”,Windows 95),则所述搜索查询可以是“Microsoft Windows”、“最新版本”,而不包括“Windows 95”对象部分。对所述搜索查询进行编译可以包括从元组中提取主题和关系,以及使用搜索查询语法、主题和关系来构建搜索查询以形成搜索查询。例如,字符串连结操作可以被用于基于搜索查询语法、主题和关系来形成搜索查询。
在框1115中,通过使用搜索查询进行信息搜索来生成搜索结果。可以基于主题或类别来选择用于查询的信息源。例如,***100可以维护信息源的列表。例如,搜索引擎140a和140b可以是列表中所包括的信息源的示例。列表中的每个信息源都可以具有与其相关联的一个或多个主题或类别。如果特定类别或主题与信息源相关联,则这可能指示该信息源有资格获得与特定类别或主题相关的数据。在一些方面中,对信息源的选择可以基于与正在被搜索的电子内容205相关联的元数据。例如,每个信息源可以具有与其相关联的优先级。对信息源的选择可以基于优先级。所述优先级可以由例如如上文所讨论的信息源是否被指定为针对类别或主题的源来实现。在一些方面中,所述优先级还可以由电子内容205中的元数据来实现。框1115可以包括至少将所述搜索查询发送给搜索引擎并且从搜索引擎接收搜索结果。
因此,框1115可以通过确定列表中与框1115的主题或类别相关联的信息源的子集来选择信息源。在一些方面中,所述信息源的列表可以能由管理员来配置。列表中的每个信息源的优先级也可以能由管理员来配置。例如,可以呈现用户界面,所述用户界面被配置为接收定义信息源列表和(可选地)其各自的优先级的输入。对所述列表进行配置可以包括输入指示针对信息源的查询格式和互联网地址的信息。所述列表可能特定于一个或多个主题或类别。因此,在一些方面中,所述用户界面被配置为关联针对一个或多个主题或类别的组的列表。单独的列表可以与一个或多个主题或类别的不同组相关联。因此,可以为多个主题/类别组支持多个列表。
一旦选择了信息源,就执行对所选择的源的搜索以生成搜索结果。
在框1120中,可以识别与搜索结果相关联的最近时间。例如,框1120可以扫描在框1115中获得的搜索结果,以识别具有最新时间戳的结果。在一些方面中,上文关于过程630所讨论的一个或多个功能可以被包含在框1120中。例如,框720、725和730中的一个或多个可以被包含在框1120的各个方面中。
在框1130中,基于识别出的搜索结果来生成针对第一断言的准确性加权。在一些方面中,框1130将使用自然语言处理,基于搜索结果来构建第二元组。例如,框1130可以根据搜索结果来构建元组(Microsoft Windows,最新版本,10)。换言之,所述搜索结果可以为在框1110中创建的元组提供新的“对象”。
然后,可以将在框1110中识别出的第一元组与在框1130中创建的第二元组进行比较,以确定断言是否已经被搜索结果确认或矛盾。换言之,可以将来自两个元组的两个对象进行比较,以确定其是否一致或者其是否不同。如果其不同,则框1110中识别出的第一断言将被收缩,并且可能不再有效。然后,基于该确定,将准确性加权指派给第一断言。例如,如果第二元组中的对象确认了第一元组中的对象,则可以为准确性加权分配相对较高的值,而如果第二元组中的对象与第一元组中的对象不同,则可以为准确性加权指派相对较低的值。在一些方面中,在框1130中可以包括上文关于框730所讨论的一个或多个功能。
在框1135中,基于准确性加权在电子数据对象中注释第一断言,以指示断言准确性。例如,在一些方面中,所述注释可以采取至少元数据、音频数据或图像数据中的一个或多个的形式。如果确定电子数据对象的特定部分具有较低的准确性(例如,满足标准的准确性),则可以将指示这样的情况的图像注释***到电子数据对象中。替代地,在一些方面中,所述图像注释可以将更准确的信息***到电子数据对象中。可以***所***的注释,以便模糊过时或不准确的信息。例如,过时或不准确的信息可以以第一注释涂白或涂黑。例如,然后可以将包括更准确的信息的第二注释***在涂白或涂黑区域的顶部。替代地,如果电子数据对象中的不准确信息是音频形式,则可以在不准确音频信息的有限接近度内的位置处***音频注释。例如,不准确信息可以以第一注释发出“嘟嘟”声,并且可以***准确的音频信息的第二注释。
在一些实施例中,过程1100可以迭代地操作。例如,如果在框1105中在电子数据对象中识别出多个断言,则如上所述可以通过框1110、1115、1120和1130来迭代地处理这些断言。结果可以是针对电子数据对象中每个识别出的断言的个体准确性加权。
因此,一些方面可以为电子数据对象中的一个或多个断言提供个体准确性加权。一些方面可以包括额外的准确性加权,其汇总了这些个体准确性中的至少一些,以提供更能反映电子数据对象(诸如文件)的准确性加权。在一些方面中,可以对个体准确性加权进行平均以确定针对电子数据对象的汇总准确性加权。在其他方面中,汇总的准确性加权可以是加权平均值,其中每个个体准确性分数的权重基于在电子数据对象中表示对应的断言的时间量。例如,如果在演示文稿中显示第一断言达五(5)分钟,然后显示第二断言达十(10)分钟,则可以通过下式来确定汇总的准确性分数:
其中:
AAC是针对电子数据对象(诸如文件)的汇总的准确性分数。
Wi表示在查看电子数据对象时出现断言i的时间比例量。
Ai是断言i的准确性加权。
n是在电子数据对象中评分的断言的数量。
在一些方面中,对所述电子数据对象或第一断言进行注释可以包括将电子数据对象的部分移动到电子数据对象内的不同位置。例如,准确性加权低于阈值的电子数据对象的一部分可以被移动到电子数据对象的“结尾”或“末尾”。“结尾”或“末尾”可以是在“播放”操作期间播放的电子数据对象的最后部分。例如,演示文稿的最后一张或多张幻灯片可以被视为演示文稿的“结尾”或“末尾”。当播放电子内容时,电子数据对象的(一个或多个)过时部分的新位置可以稍后在内容序列中。
过程1100的一些实施例可以包括引起用户界面的显示。所述用户界面可以包括多个电子数据对象的列表。每个电子数据对象可以具有关联的准确性加权或分数。在一些方面中,电子数据对象的名称可以被显示在用户界面的第一列中,而命名电子数据对象中的准确性加权或分数可以被显示在用户界面的第二列中。列可以提供排序能力,使得用户可以选择准确性列,并且基于其准确性加权或分数来对电子数据对象进行排序。
过程1100的一些方面可以周期性地删除准确性加权或分数低于预定阈值的电子数据对象。替代地,一些方面可以生成具有相对较低的准确性加权(低于预定阈值)的这些对象的报告,并且将该报告邮寄到电子邮件地址的预定列表,该列表可以经由单独的用户界面进行管理。
其他说明和示例
示例1是一种对电子数据对象进行注释以指示所述电子数据对象的准确性的方法,包括:识别正在对包括第一断言的一个或多个断言进行编码的电子数据对象的数据段;基于所述一个或多个断言来编译搜索查询;通过使用所述搜索查询进行第一信息搜索来生成搜索结果;识别与所述搜索结果中的和所述第一断言相关的搜索结果相关联的最近时间;基于搜索结果来生成针对所述第一断言的准确性加权;以及基于准确性加权来注释所述第一断言以指示所述断言的准确性。
在示例2中,示例1的主题可选地包括:其中,识别正在编码一个或多个断言的电子数据对象的数据段包括:生成包括主题、关系和对象的第一元组,所述元组表示所述第一断言。
在示例3中,示例2的主题可选地包括:其中,编译搜索查询包括:生成包括所述第一元组的所述主题和所述关系的查询。
在示例4中,示例3的主题可选地包括:其中,为所述第一断言生成准确性加权包括:根据具有最近的相关联时间的搜索结果来生成第二元组;比较所述第一元组中的所述对象和所述第二元组中的对象;并且基于所述比较来生成所述准确性加权。
在示例5中,示例1-4中的任意一项或多项的主题可选地包括:响应于针对所述电子数据对象的请求,而传送包括所述第一断言的经更新的电子数据对象。
在示例6中,示例1-5中的任意一项或多项的主题可选地包括:其中,对所述第一断言进行注释包括:在所述电子数据对象中***包括音频数据、图像数据或文本数据中的一项或多项的信息,***的信息指示所述准确性加权。
在示例7中,示例6的主题可选地包括:其中,所述***的信息还指示从具有最近时间的搜索结果导出的信息。
在示例8中,示例1-7中的任意一项或多项的主题可选地包括:其中,对所述第一断言进行注释包括:将所述电子数据对象中的准确性加权低于阈值的部分从所述电子数据对象的第一位置重新定位到所述电子数据对象的第二位置,所述第二位置在所述电子数据对象的查看序列中相对于所述第一位置在后面。
在示例9中,示例1-8中的任意一项或多项的主题可选地包括:引起包括所述电子数据对象的表示的用户界面的显示,所述用户界面被配置为提供对所述表示的选择,所述用户界面还包括所述准确性加权的表示。
在示例10中,示例9的主题可选地包括:其中,所述用户界面还被配置为基于准确性加权的对应的多个表示来对电子数据对象的多个表示进行排序。
示例11是一种用于对电子数据对象进行注释以指示所述电子数据对象的准确性的装置,所述装置包括:一个或多个硬件处理器,其被配置为:识别正在对包括第一断言的一个或多个断言进行编码的电子数据对象的数据段;基于所述一个或多个断言来编译搜索查询;通过使用所述搜索查询进行第一信息搜索来生成搜索结果;识别与所述搜索结果中的和所述第一断言相关的搜索结果相关联的最近时间;基于搜索结果来生成针对第一断言的准确性加权;以及基于准确性加权来注释所述第一断言以指示所述断言的准确性。
在示例12中,示例11的主题可选地包括:其中,识别正在对一个或多个断言进行编码的所述电子数据对象的所述数据段包括:生成包括主题、关系和对象的第一元组,所述元组表示第一断言。
在示例13中,示例12的主题可选地包括:其中,编译搜索查询包括:生成包括所述第一元组的所述主题和所述关系的查询。
在示例14中,示例13的主题可选地包括:其中,生成针对所述第一断言的准确性加权包括:根据具有最近的相关联时间的搜索结果来生成第二元组;比较所述第一元组中的所述对象和所述第二元组中的对象;并且基于所述比较来生成所述准确性加权。
在示例15中,示例11-14中的任意一项或多项的主题可选地包括:其中,所述一个或多个硬件处理器还被配置为:响应于针对所述电子数据对象的请求,而传送包括所述第一断言的经更新的电子数据对象。
在示例16中,示例11-15中的任意一项或多项的主题可选地包括:其中,对所述第一断言进行注释包括:在所述电子数据对象中***包括音频数据、图像数据或文本数据中的一项或多项的信息,***的信息指示所述准确性加权。
在示例17中,示例16的主题可选地包括:其中,所述***的信息还指示从具有最近时间的搜索结果中导出的信息。
在示例18中,示例11-17中的任意一项或多项的主题可选地包括:其中,对所述第一断言进行注释包括:将所述电子数据对象中的准确性加权低于阈值的部分从所述电子数据对象中的第一位置重新定位到所述电子数据对象中的第二位置,所述第二位置在所述电子数据对象的查看序列中相对于所述第一位置在后面。
在示例19中,示例11-18中的任意一项或多项的主题可选地包括:其中,所述一个或多个硬件处理器还被配置为:引起包括所述电子数据对象的表示的用户界面的显示,所述用户界面被配置为提供对所述表示的选择,所述用户界面还包括所述准确性加权的表示。
在示例20中,示例19的主题可选地包括:其中,所述用户界面还被配置为基于准确性加权的对应的多个表示来对电子数据对象的多个表示进行排序。

Claims (15)

1.一种用于利用电子数据内容的准确性指示来对所述电子数据内容进行注释的装置,所述装置包括:
一个或多个硬件处理器,其被配置为:
识别所述电子数据内容中的断言,所述断言具有主题和对象;
基于所述断言的所述主题来编译搜索查询;
基于所述搜索查询进行搜索;
根据所述搜索获取多个搜索结果;
识别所述多个搜索结果中的包括与所述断言的所述对象相关的信息的搜索结果;
基于所述信息是否证实所述断言来生成针对所述断言的所述准确性指示;以及
基于所述准确性指示来对所述断言进行注释以提供经注释的断言。
2.根据权利要求1所述的装置,其中,所述一个或多个硬件处理器还被配置为:生成包括所述主题、关系和所述对象的第一元组,所述第一元组表示所述断言。
3.根据权利要求2所述的装置,其中,所述一个或多个硬件处理器还被配置为:将所述第一元组的所述主题和所述关系包括在经编译的搜索查询中。
4.根据权利要求3所述的装置,其中,所述一个或多个硬件处理器还被配置为:
根据所述多个搜索结果中的选定搜索结果来生成第二元组,所述选定搜索结果具有所述多个搜索结果的最近的相关联时间;
比较所述第一元组中的对象和所述第二元组中的对象;以及
基于所述比较来生成所述准确性指示。
5.根据权利要求1所述的装置,其中,所述一个或多个硬件处理器还被配置为:响应于针对所述电子数据内容的请求,传送包括所述经注释的断言的更新的电子数据内容。
6.根据权利要求1所述的装置,其中,所述一个或多个硬件处理器还被配置为:在所述电子数据内容中***包括音频数据、图像数据或文本数据中的一项或多项的准确性加权以作为所述准确性指示。
7.根据权利要求6所述的装置,其中,***的所述准确性加权还指示从所述多个搜索结果中的选定搜索结果导出的信息,所述选定搜索结果具有所述多个搜索结果的最近的相关联时间。
8.根据权利要求1所述的装置,其中,所述一个或多个硬件处理器还被配置为:
将所述准确性指示与阈值进行比较;以及
响应于所述准确性指示小于所述阈值,从所述电子数据内容中的第一位置重新定位到所述电子数据内容中的第二位置,所述第二位置在所述电子数据内容的查看序列中相对于所述第一位置在后面。
9.根据权利要求1所述的装置,其中,所述一个或多个硬件处理器还被配置为引起包括所述电子数据内容的表示的用户界面的显示,所述用户界面被配置为提供对所述表示的选择,所述用户界面还包括所述准确性指示的表示,其中,所述用户界面还被配置为基于所述多个搜索结果中的相应断言的准确性指示的对应的多个表示来对所述多个搜索结果的相应的多个表示进行排序。
10.一种用于利用电子数据内容的准确性指示来对所述电子数据内容进行注释的装置,所述装置包括:
用于识别所述电子数据内容中的断言的单元,所述断言具有主题和对象;
用于基于所述断言的所述主题来编译搜索查询的单元;
用于基于所述搜索查询进行搜索的单元;
用于根据所述搜索获取多个搜索结果的单元;
用于识别所述多个搜索结果中的包括与所述断言的所述对象相关的信息的搜索结果的单元;
用于基于所述信息是否证实所述断言来生成针对所述断言的所述准确性指示的单元;以及
用于基于所述准确性指示来对所述断言进行注释以提供经注释的断言的单元。
11.根据权利要求10所述的装置,其中,用于识别所述电子数据内容中的所述断言的单元包括:用于生成包括所述主题、关系和所述对象的第一元组的单元,所述第一元组表示所述断言。
12.根据权利要求11所述的装置,其中,用于生成针对所述断言的所述准确性指示的单元包括:
用于根据所述多个搜索结果中的选定搜索结果来生成第二元组的单元,所述第二元组包括主题、关系和对象,所述选定搜索结果具有所述多个搜索结果的最近的相关联时间;
用于比较第一元组中的对象和所述第二元组中的对象的单元;以及
用于基于所述比较来生成所述准确性指示的单元。
13.一种利用电子数据内容的准确性指示来对所述电子数据内容进行注释的方法,包括:
识别所述电子数据内容中的断言,所述断言具有主题和对象;
基于所述断言的所述主题来编译搜索查询;
基于所述搜索查询进行搜索;
根据所述搜索获取多个搜索结果;
识别所述多个搜索结果中的包括与所述断言的所述对象相关的信息的搜索结果;
基于所述信息是否证实所述断言来生成针对所述断言的所述准确性指示;以及
基于所述准确性指示来对所述断言进行注释以提供经注释的断言。
14.根据权利要求13所述的方法,其中,识别所述电子数据内容中的所述断言包括:生成包括所述主题、关系和所述对象的第一元组,所述第一元组表示所述断言,其中,编译所述搜索查询包括:生成包括所述第一元组的所述主题和所述关系的搜索查询。
15.根据权利要求14所述的方法,其中,生成针对所述断言的所述准确性指示包括:
根据所述多个搜索结果中的选定搜索结果来生成第二元组,所述第二元组包括主题、关系和对象,所述选定搜索结果具有所述多个搜索结果的最近的相关联时间;
比较所述第一元组中的对象和所述第二元组中的对象;以及
基于所述比较来生成所述准确性指示。
CN201880085597.0A 2018-01-15 2018-12-14 针对媒体的准确性确定 Active CN111557000B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/871,724 US10754904B2 (en) 2018-01-15 2018-01-15 Accuracy determination for media
US15/871,724 2018-01-15
PCT/US2018/065577 WO2019139727A1 (en) 2018-01-15 2018-12-14 Accuracy determination for media

Publications (2)

Publication Number Publication Date
CN111557000A CN111557000A (zh) 2020-08-18
CN111557000B true CN111557000B (zh) 2023-10-31

Family

ID=65234648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880085597.0A Active CN111557000B (zh) 2018-01-15 2018-12-14 针对媒体的准确性确定

Country Status (3)

Country Link
US (1) US10754904B2 (zh)
CN (1) CN111557000B (zh)
WO (1) WO2019139727A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210019304A1 (en) * 2019-07-15 2021-01-21 fakeOut Ltd. System and method retrieving, analyzing, evaluating and concluding data and sources
CN111209479B (zh) * 2020-01-06 2023-05-05 北京字节跳动网络技术有限公司 对象推送方法及装置
US11347822B2 (en) 2020-04-23 2022-05-31 International Business Machines Corporation Query processing to retrieve credible search results
US20230196815A1 (en) * 2021-12-16 2023-06-22 Microsoft Technology Licensing, Llc Computing system for detecting and updating stale information

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105359144A (zh) * 2013-06-04 2016-02-24 谷歌公司 用于意图查询的自然语言搜索结果

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617205B2 (en) * 2005-03-30 2009-11-10 Google Inc. Estimating confidence for query revision models
US20050210501A1 (en) 2004-03-19 2005-09-22 Microsoft Corporation Method and apparatus for handling metadata
US7434155B2 (en) 2005-04-04 2008-10-07 Leitch Technology, Inc. Icon bar display for video editing system
US20070005592A1 (en) 2005-06-21 2007-01-04 International Business Machines Corporation Computer-implemented method, system, and program product for evaluating annotations to content
US20070174324A1 (en) 2006-01-12 2007-07-26 Palapudi Sriram M Mechanism to trap obsolete web page references and auto-correct invalid web page references
US8255873B2 (en) 2006-11-20 2012-08-28 Microsoft Corporation Handling external content in web applications
US20090094113A1 (en) 2007-09-07 2009-04-09 Digitalsmiths Corporation Systems and Methods For Using Video Metadata to Associate Advertisements Therewith
US8655881B2 (en) 2010-09-16 2014-02-18 Alcatel Lucent Method and apparatus for automatically tagging content
US9594788B2 (en) 2011-02-25 2017-03-14 International Business Machines Corporation Displaying logical statement relationships between diverse documents in a research domain
US8719692B2 (en) 2011-03-11 2014-05-06 Microsoft Corporation Validation, rejection, and modification of automatically generated document annotations
US9176957B2 (en) 2011-06-10 2015-11-03 Linkedin Corporation Selective fact checking method and system
EP2756686A4 (en) 2011-09-12 2015-03-04 Intel Corp METHOD AND DEVICE FOR KEYWORK-BASED NON-LINEAR NAVIGATION OF VIDEO STREAMS AND OTHER CONTENT
US20140150029A1 (en) 2012-04-18 2014-05-29 Scorpcast, Llc System and methods for providing user generated video reviews
US20140130099A1 (en) 2012-11-08 2014-05-08 General Instrument Corporation User-intiated feedback and correction of program metadata through an electronic program guide
US8954405B2 (en) 2013-02-25 2015-02-10 International Business Machines Corporation Content validation for documentation topics using provider information
US9602850B2 (en) 2013-08-06 2017-03-21 Verizon Patent And Licensing Inc. Metadata validation
US9483582B2 (en) 2014-09-12 2016-11-01 International Business Machines Corporation Identification and verification of factual assertions in natural language

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105359144A (zh) * 2013-06-04 2016-02-24 谷歌公司 用于意图查询的自然语言搜索结果

Also Published As

Publication number Publication date
US10754904B2 (en) 2020-08-25
WO2019139727A1 (en) 2019-07-18
CN111557000A (zh) 2020-08-18
US20190220544A1 (en) 2019-07-18

Similar Documents

Publication Publication Date Title
US20210232762A1 (en) Architectures for natural language processing
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
US10515424B2 (en) Machine learned query generation on inverted indices
CN111557000B (zh) 针对媒体的准确性确定
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
US10437894B2 (en) Method and system for app search engine leveraging user reviews
US9996504B2 (en) System and method for classifying text sentiment classes based on past examples
US11023503B2 (en) Suggesting text in an electronic document
US20110219299A1 (en) Method and system of providing completion suggestion to a partial linguistic element
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
US11935315B2 (en) Document lineage management system
US20240037375A1 (en) Systems and Methods for Knowledge Distillation Using Artificial Intelligence
Demirsoz et al. Classification of news-related tweets
Karyukin et al. On the development of an information system for monitoring user opinion and its role for the public
KR20150096024A (ko) 콘텐츠 추천을 위한 소셜 데이터 분석 시스템
US9323721B1 (en) Quotation identification
CN111753199A (zh) 用户画像构建方法及设备、电子设备和介质
Ramesh Kashyap et al. EPICURE-Aspect-based Multimodal Review Summarization
Liu Data-driven assistance for user decision making on mobile devices
Zhang Beyond Simple Relevance: Balancing Heterogeneous Criteria in Information Retrieval Applications
CN116578725A (zh) 一种搜索结果排序方法、装置、计算机设备和存储介质
Nguyen Top-K Item Recommendations Using Social Media Networks-Using Twitter Profiles as a Source for Recommending Movies
CN117331893A (zh) 搜索方法、装置、电子设备和存储介质
Nutakki A framework for clustering and adaptive topic tracking on evolving text and social media data streams.
Kirø Tweet Sentiment, Sentiment Trend, and a Comparison with Financial Trend Indicators.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant