CN104714931A - 用于选择用以代表表格式信息的方法和*** - Google Patents

用于选择用以代表表格式信息的方法和*** Download PDF

Info

Publication number
CN104714931A
CN104714931A CN201410678045.4A CN201410678045A CN104714931A CN 104714931 A CN104714931 A CN 104714931A CN 201410678045 A CN201410678045 A CN 201410678045A CN 104714931 A CN104714931 A CN 104714931A
Authority
CN
China
Prior art keywords
cell
probability
tableau format
lattice
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410678045.4A
Other languages
English (en)
Other versions
CN104714931B (zh
Inventor
D·K·比荣
S·N·格拉德
A·皮科维斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104714931A publication Critical patent/CN104714931A/zh
Application granted granted Critical
Publication of CN104714931B publication Critical patent/CN104714931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

选择与表格对应的表格结构以描述表格结构中的单元格配对中的单元格何时应当彼此相似。选择单元格相似度函数以根据准则来比较单元格配对中的单元格并且输出单元格配对包括包含有彼此相似的值的单元格的概率。根据单元格相似度函数来确定表格结构中的第一单元格配对中的第一单元格和第二单元格彼此相似的单元格相似概率。使用单元格相似概率来调整表格结构代表表格的计算的概率。将所计算的概率指示为第一模型代表表格的概率,其中第一模型是表格结构和所选择的单元格相似度函数的函数。

Description

用于选择用以代表表格式信息的方法和***
技术领域
本发明总体上涉及用于处理文档的方法、***和计算机程序产品。更具体地,本发明涉及用于选择用以代表表格式信息的结构的方法、***和计算机程序产品。
背景技术
文档包括很多形式的信息。例如,被布置为语句和段落的文本信息传达叙述形式的信息。
一些类型的信息用表格式组织来呈现。例如,文档可以包括用于呈现财务信息、组织信息以及总体上通过某种关系彼此相关的任何数据项的表格。
自然语言处理(NLP)是一种有助于信息在人与数据处理***之间的交换的技术。例如,NLP的一个分支涉及将给定内容变换成人类可用的语言或形式。例如,NLP可以接受其内容是计算机专用语言或形式的文档,并且产生其对应内容是人类可读形式的文档。
问答***(Q&A***)是一种在数据处理硬件上执行的人工智能应用。Q&A***回答与用自然语言所呈现的给定主题领域有关的问题。
通常,Q&A***提供有对如下领域特定信息的集合的访问:Q&A***基于该领域特定信息的集合回答与该领域有关的问题。例如,Q&A***访问关于该领域的知识体系,其中知识体系(知识库)可以按照各种配置来组织。例如,某个领域的知识库可以包括领域特定信息的结构化存储库、诸如与该领域有关的本体论或非结构化数据、或者关于该领域的自然语言文档的集合。IBM Watson是Q&A***的一个示例。(IBM和Watson是美国和其他国家的国际商用机器公司的商标)。
Q&A***可以被配置成接收来自各种源的输入。例如,Q&A***可以通过网络接收以下内容作为输入:电子文档或其他数据的语料库、来自内容创建者的数据、来自一个或多个内容用户的信息、以及来自其他可能的输入源的其他这样的输入。至Q&A***的输入中的一些或所有输入可以通过网络102来被路由。网络上的各种计算设备可以包括用于内容创建者和内容用户的访问点。这些计算设备中的一些计算设备可以包括用于存储数据的语料库的设备。网络可以包括本地网络连接和远程连接,使得Q&A***可以在任何尺寸的环境、包括本地和全局环境、例如因特网中进行操作。另外地,Q&A***可以被配置成用作前端***,该前端***能够使得从文档、网络可访问的源和/或结构化的数据源提取的或在其中代表的各种知识可用。以这一方式,一些处理填充具有输入接口的Q&A***以接收知识请求以及相应地接收响应。
内容创建者在文档中创建内容用于作为数据的语料库的一部分、通过Q&A***来使用。文档可以包括用于在Q&A***中使用的任何文件、文本、文章或数据源。内容用户向Q&A***中输入问题,这些问题由Q&A***使用数据的语料库中的内容来回答。在处理针对语义内容评估文档的给定部分时,处理可以使用各种约定来向Q&A***询问这样的文档。一个约定是将询问作为格式良好的问题发送给Q&A***。语义内容是基于能指(signifier)、诸如词语、短语、标记和符号之间的关系的内容、以及它们代表什么、它们的意义或者蕴意。换言之,语义内容是诸如通过使用自然语言处理来解释表达的内容。
处理向Q&A***发送形式合法的问题(例如自然语言问题)。Q&A***解释问题并且向内容用户提供包含问题的一个或多个答案的响应。Q&A***还可以按答案的经排序的列表向用户提供响应。
作为示例,IBM WatsonTM Q&A***接收输入问题,解析问题以提取问题的主要特征,使用提取出的特征来制定询问,以及将这些询问应用于数据的语料库。基于将询问应用于数据的语料库,Q&A***通过以下操作来生成输入问题的假说或候选答案的集合:遍及数据的语料库查找数据的语料库的有某一可能性包含针对输入问题的有价值响应的部分。
IBM WatsonTM Q&A***然后通过使用各种推理算法对输入问题的语言以及数据的语料库在应用询问期间被找出的部分中的每个部分中所使用的语言执行分析。可以应用数百个甚至数千个推理算法,其中每个算法执行不同的分析、例如比较并且生成得分。例如,某些推理算法可以查看输入问题的语言内的用语及同义字与数据的语料库的找出部分的匹配。其他推理算法可以查找语言中的时间特征和空间特征,而再其他的推理算法可以评估数据的语料库的部分的来源并且评估其真实性。
从各种推理算法获得的得分指示基于该推理算法的特定关注区域的、潜在响应通过输入问题而被推断出的程度。每个所得得分然后相对于统计模型而被加权。统计模型捕获推理算法在IBMWatsonTM Q&A***的训练期期间在建立特定领域的两个相似的段落之间的推断时表现得怎样。统计模型然后可以用于概述IBMWatsonTM Q&A***对于如下证据所具有的置信度水平:潜在响应、即候选答案通过问题被推断出。这个过程可以对于候选答案中的每个候选答案而被重复,直至IBM WatsonTM Q&A***识别出浮现为比其他答案强得多的候选答案并且因此生成输入问题的最终答案或者经排序的答案集合。可以例如从IBM公司网站、IBM红皮书等获得关于IBM WatsonTM Q&A***的更多信息。例如,可以在2011年IBM developerWorks中Yuan等人的“Watson and Healthcare”中以及在2012年IBM红皮书中Rob High的“The Era of Cognitive Systems:An Inside Look at IBM Watson and How it Works”中找到关于IBMWatsonTM Q&A***的信息。
发明内容
说明性实施例提供用于表格式数据的主题分析的方法、***和计算机程序产品。一个实施例包括一种用于选择用以代表表格式信息的结构的方法。该实施例从表格结构的汇集中选择与表格对应的表格结构,表格结构函数描述表格结构中的单元格配对中的单元格何时应当彼此相似。该实施例选择单元格相似度函数,其中单元格相似度函数根据准则来比较表格结构中的单元格配对中的单元格并且输出单元格配对包括包含有彼此相似的值的单元格的概率。该实施例根据单元格相似度函数来确定表格结构中的第一单元格配对中的第一单元格和第二单元格彼此相似的单元格相似概率。该实施例使用单元格相似概率来调整表格结构代表表格的计算的概率。该实施例将所计算的概率指示为第一模型代表表格的概率,其中第一模型是表格结构和所选择的单元格相似度函数的函数。
另一实施例包括一种计算机可用程序产品,其包括计算机可用存储设备,计算机可用存储设备包括用于选择用以代表表格式信息的结构的计算机可用代码。该实施例还包括用于从表格结构的汇集中选择与表格对应的表格结构的计算机可用代码,表格结构函数描述表格结构中的单元格配对中的单元格何时应当彼此相似。该实施例还包括用于选择单元格相似度函数的计算机可用代码,其中单元格相似度函数根据准则来比较表格结构中的单元格配对中的单元格并且输出单元格配对包括包含有彼此相似的值的单元格的概率。该实施例还包括用于根据单元格相似度函数来确定表格结构中的第一单元格配对中的第一单元格和第二单元格彼此相似的单元格相似概率的计算机可用代码。该实施例还包括用于使用单元格相似概率来调整表格结构代表表格的计算的概率的计算机可用代码。该实施例还包括用于将所计算的概率指示为第一模型代表表格的概率的计算机可用代码,其中第一模型是表格结构和所选择的单元格相似度函数的函数。
另一实施例包括一种用于选择用以代表表格式信息的结构的数据处理***。该实施例还包括包括存储介质的存储设备,其中存储设备存储计算机可用程序代码。该实施例还包括处理器,其中处理器执行计算机可用程序代码。该实施例还包括用于从表格结构的集合中选择与表格对应的表格结构的计算机可用代码,表格结构函数描述表格结构中的单元格配对中的单元格何时应当彼此相似。该实施例还包括用于选择单元格相似度函数的计算机可用代码,其中单元格相似度函数比较表格结构中的单元格配对中的单元格并且输出单元格配对包括根据某个准则包含彼此相似的值的单元格的概率。该实施例还包括用于根据单元格相似度函数确定表格结构中的第一单元格配对中的第一单元格和第二单元格彼此相似的单元格相似概率的计算机可用代码。该实施例还包括用于使用单元格相似概率调整表格结构代表表格的所计算的概率的计算机可用代码。该实施例还包括用于将所计算的概率指示为第一模型代表表格的概率的计算机可用代码,其中第一模型是表格结构和所选择的单元格相似度函数的函数。
附图说明
所附权利要求中给出了被认为是本发明的特性的新颖特征。然而本发明本身以及优选使用模式、其另外的目的和优点在结合附图阅读时、通过参考说明性实施例的以下详细描述可以被最佳地理解,附图中:
图1描绘其中可以实现说明性实施例的数据处理***的网络的图画表示;
图2描绘其中可以实现说明性实施例的数据处理***的框图;
图3描绘根据说明性实施例的、其中函数关系和签名能够被识别的表格式数据的示例;
图4描绘根据说明性实施例的、可配置成代表任意表格的通用结构表示;
图5描绘根据说明性实施例的、用以计算拟合给定表格式数据的模型的概率的等式;
图6描绘根据说明性实施例的、确定所考虑的模型与给定表格式数据之间的最佳拟合的方式;以及
图7描绘根据说明性实施例的、选择用以代表表格式信息的模型的示例过程的流程图。
具体实施方式
说明性实施例认识到,经过NLP的文档通常包括表格式数据、即一个或多个表格式数据结构(表格)的形式的内容。表格的单元格(cell)是表格内的包含单元,使得单元格的内容可以由行和列或者表格的其他合适的坐标来唯一地识别。
说明性实施例认识到,在表格的单元格内所呈现的信息通常隐式地涉及同一表格的其他单元格、同一文档中的不同表格的单元格、或者不同文档中的不同表格的单元格中的信息。在不同的单元格中所包含的信息之间的关系对于理解表格式数据的含义、并且通常对于整体理解文档的含义而言很重要。
很多领域特定的文档、尤其是财务领域、医学领域和其他主题领域的文档具有在大量表格内的关键信息。例如,用户可能很想知道实体的资产负债表上报告的资产和负债。回答这样的问题所需要的信息仅频繁出现在表格内而非在财务文档的叙述文本中。
恢复来自表格内的信息在历史上是很困难的问题。说明性实施例认识到NLP中需要专门的处理或操作以用于正确地且完整地解释表格式数据。用于理解单元格数值之间的关系的当前可用的技术限于通过使用行或列标题启发式地猜测用于单元格的标签。
此外,说明性实施例认识到,具有表格式数据的文档可以被包括在用于Q&A***的语料库中。对于能够基于表格式数据来回答问题的Q&A***而言,Q&A***必须能够确定给定表格如何代表数据、在表格式信息中所暗示的单元格之间的结构和关系、以及单元格如何提供用以完全理解另一单元格的数据的含义的情境信息。
例如,想象资产负债表提供两个列——资产和负债。在资产列和负债列下面,每个行呈现四个单元格——在资产列下面的用以描述资产的一个单元格、与资产描述相邻的用以包含该资产的值的另一单元格、在负债列下面的用以描述负债的性质的一个单元格、以及与负债描述相邻的用以包含负债的值的另一单元格。对这样的表格式数据的简单的行列解释仅可以理解资产和负债的美元值而没有理解资产和负债的性质。例如,阅读表格的人很容易回答简单的问题、诸如“资产的组成是什么”。然而,这样的问题不能使用机器通过表格单元格的简单的行列解释来回答,因为与数值单元格相邻的单元格提供回答问题所必需的情境并且当前可用方法不能将相邻单元格作为用于另一(包含数值的)小区的情境信息来阅读。
用于描述本发明的说明性实施例通常处理并且解决上述问题以及与当前可用的NLP技术的限制有关的其他问题。说明性实施例提供一种用于选择用以代表表格式信息的结构的方法、***和计算机程序产品。
说明性实施例接受表格式数据(表格)作为输入,并且生成用以描述该表格中的数据的最可能的结构作为输出。示例表格和单元格或者其具体方式的呈现仅用于清楚地描述各种实施例的操作,而非作为对说明性实施例的限制。本文中代表表格或单元格的任何方式(只要单元格用表格中的行坐标和列坐标、或者用于表格的某个其他坐标系唯一地可识别),一个实施例可以被配置成确定如本文中所描述的表格的结构。
一个实施例考虑若干不同的表格结构,评估每个表格结构与输入表格一致(agree)的程度。在示例评估中,一个实施例计算特定结构代表(或者不代表)表格中的数据的概率。
实施例用某种术语来描述——表格结构函数T描述表格的两个单元格何时应当相似,例如,在包含行和列的表格中,何时单元格(r,c)应当与单元格(r’,c’)相似,其中r和r’代表行标识符,c和c’代表列标识符。表格结构函数被表示为T(r,c,r’,c’)。
单元格相似度函数S描述表格的两个单独的单元格何时实际上彼此相似。单元格相似度函数被表示为S(r,c,r’,c’)。
数据观测D是T和S的组合D(r,c,r’,c’)。一个实施例比较表格结构与数据观测的集合。
如果表格单元格(r,c)与表格单元格(r’,c’)相似,则单元格相似度函数返回真,否则返回假。不同的相似度函数限定相似度的备选版本以实现不同的目的。一些示例单元格相似度函数包括但不限于——
数据类型相似度——如果两个单元格包含相同数据类型的文本,例如字符串、整数、实数、日期等,则这两个单元格相似。
数值大小相似度——如果两个单元格包含大小相似的数字,则这两个单元格相似。即,如果两个数在彼此的多个O(例如10的某次幂)的范围内,则包含该数字的两个单元格相似。例如,
字符串内容相似度——如果两个单元格包含相同字体大小、相同数目的缩排或者相同或相似的字符串特征,则这两个单元格相似。
复合相似度——如果两个单元格包含多于一个相似特征,例如,当单元格包括具有相同字体大小和相似数值大小的数据(即,单元格具有字符串内容相似度和数值大小相似度的组合)时,则这两个单元格相似。
这些示例相似度仅被描述作为单元格比较的示例方法。通过使用本公开内容,本领域技术人员能够确定基于其进行单元格比较的很多其他类型的相似度,并且这些相似度被理解为在说明性实施例的范围内。使用数据类型相似度(SDT)来描述示例实施例,仅用于清楚说明而非暗示对其的任何限制。其他单元格比较方法类似地适用于在说明性实施例的范围内的实施例。
说明性实施例关于某些文档和表格式数据被描述仅作为示例。这样的文档、表格式数据、或其示例属性并非意在限制本发明。此外,包含仅表格式数据的文档、诸如具有一个或多个表格而没有非结构化内容或非表格内容的文档也被理解为在说明性实施例的范围内。
此外,说明性实施例可以关于任何类型的数据、数据源或通过数据网络对数据源的访问来实现。在本发明的范围内,任何类型的数据存储设备可以在数据处理***处本地地或者通过数据网络向本发明的实施例提供数据。
说明性实施例通过仅作为示例来使用具体的代码、设计、架构、协议、布局、方案和工具进行描述描述,而非限制说明性实施例。此外,说明性实施例为了清楚起见通过仅作为示例来使用具体的软件、工具和数据处理环境在一些实例中进行描述。说明性实施例可以结合其他可比较的或类似地提出的结构、***、应用或架构来使用。说明性实施例可以用硬件、软件或者其组合来实现。
本公开内容中的示例仅出于描述清楚起见,而非限制说明性实施例。能够根据本公开内容想到另外的数据、操作、动作、任务、活动和操纵,并且这些被理解为在说明性实施例的范围内。
本文中列出的任何优点仅是示例,而非意在限制说明性实施例。通过具体的说明性实施例可以认识到另外的或者不同的优点。此外,具体的说明性实施例可以具有以上列出的优点中的某些、所有优点,或者不具有这些优点。
参考附图,具体地参考图1和图2,这些附图是其中可以实现说明性实施例的数据处理环境的示例图。图1和图2仅是示例,而非意在确定或暗示对其中可以实现不同的实施例的环境的任何限制。具体的实现方式可以基于以下描述对所描绘的环境进行很多修改。
图1描绘其中可以实现说明性实施例的数据处理***的网络的图画表示。数据处理环境100是其中可以实现说明性实施例的计算机网络。数据处理环境100包括网络102。网络102是用于提供数据处理环境100内连接在一起的各种设备和计算机之间的通信链路的介质。网络102可以包括连接,诸如有线、无线通信链路或者光缆。服务器104和服务器106连同存储单元108耦合至网络102。可以在数据处理环境100中的任何计算机上执行软件应用。
此外,客户端110、112和114耦合至网络102。数据处理***、诸如服务器104或106或者客户端110、112或114可以包含数据,并且可以具有在其上执行的软件应用或软件工具。
仅作为示例,而非暗示对这样的架构的任何限制,图1描绘可用于实施例的示例实现方式的某些部件。例如,服务器104中的应用105是本文中描述的实施例的实现方式。应用105在存储装置108中存储的语料库的文档109中所包括的表格式数据上操作。在一个实施例中,应用105结合NLP引擎107操作以将表格式数据转换成自然语言语句。NLP引擎107可以是例如能够对文档执行自然语言处理的现有应用,并且可以被修改或配置成结合应用105操作以执行根据本文中所描述的实施例的操作。在另一实施例中,应用105结合Q&A***111操作。例如,应用105构造来自文档109的表格式数据的情境文本表示,NLP引擎107根据该文本构造自然语言语句,Q&A***111使用这些自然语言语句作为知识库的一部分来回答问题。
可以通过使用有线连接、无线通信协议或其他合适的数据连接将服务器104、106、存储单元108以及客户端110、112和114耦合至网络102。客户端110、112和114可以是例如个人计算机或网络计算机。
在所描绘的示例中,服务器104可以向客户端110、112和114提供数据,诸如引导文件、操作***图像和应用。在本示例中,客户端110、112和114可以是服务器104的客户端。客户端110、112和114或者其组合可以包括自己的数据、引导文件、操作***图像和应用。数据处理环境100可以包括附加的服务器、客户端和其他未示出的设备。
在所描绘的示例中,数据处理环境100可以是因特网。网络102可以表示使用传输控制协议/因特网协议(TCP/IP)和其他协议来彼此通信的网络和网关的汇集。在互联网的心脏处是主要节点或者主控计算机之间的数据通信链路的骨干网,包括路由数据和消息的成千个商用、政府、教育和其他计算机***。当然,数据处理环境100还可以被实现为大量不同类型的网络,诸如例如内联网、局域网(LAN)或广域网(WAN)。图1意在作为示例,而非对于不同说明性实施例的架构限制。
数据处理环境100可以用于实现其中可以实现说明性实施例的客户端-服务器环境以及其他用途。客户端-服务器环境使得软件应用和数据能够在网络上分布,以便应用通过使用客户端数据处理***与服务器数据处理***之间的交互性来起作用。数据处理环境100还可以采用面向服务的架构,其中在网络上分布的可互操作软件部件可以被封装在一起作为相干商业应用。
参考图2,该图描绘其中可以实现说明性实施例的数据处理***的框图。数据处理***200是计算机、诸如图1中的服务器104或客户端112、或者实现用于说明性实施例的处理的计算机可用程序代码或指令可以位于其中的其他类型的设备的示例。
在所描绘的示例中,数据处理***200采用集线器架构,集线器架构包括北桥和存储器控制器集线器(NB/MCH)202以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。处理单元206、主存储器208和图形处理器210耦合至北桥和存储器控制器集线器(NB/MCH)202。处理单元206可以包含一个或多个处理器,并且可以通过使用一个或多个异构的处理器***来实现。处理单元206可以是多核处理器。在某些实现方式中,图形处理器210可以通过加速图形端口(AGP)耦合至NB/MCH 202。
在所描绘的示例中,局域网(LAN)适配器212耦合至南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、通用串行总线(USB)和其他端口232、以及PCI/PCIe设备234通过总线238耦合至南桥和输入/输出(I/O)控制器集线器204。硬盘驱动器(HDD)226和CD-ROM 230通过总线240耦合至南桥和输入/输出(I/O)控制器集线器204。PCI/PCIe设备234可以包括例如用于笔记本计算机的以太网适配器、插卡和PC卡。PCI使用卡总线控制器,而PCIe不使用卡总线控制器。ROM 224可以是例如闪速二进制输入/输出***(BIOS)。硬盘驱动器226和CD-ROM 230可以使用例如集成驱动电子器件(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)设备236可以通过总线238耦合至南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。
存储器、诸如主存储器208、ROM 224或闪速存储器(未示出)是计算机可用存储设备的一些示例。硬盘驱动器226、CD-ROM 230和其他类似的可用设备是包括计算机可用存储介质的计算机可用存储设备的一些示例。
操作***在处理单元206上运行。操作***协调并提供对图2中的数据处理***200内的各种部件的控制。操作***可以是商业可获得的操作***,诸如(AIX是美国和其他国家的International Business Machines Corporation的商标)、(Microsoft和Windows是美国和其他国家的Microsoft Corporation的商标)、或者(Linux是美国和其他国家的Linus Torvalds的商标)。面向对象的编程***、诸如JavaTM编程***可以结合操作***来运行,并且向操作***提供对在数据处理***200上执行的JavaTM程序或应用的调用(Java和所有基于Java的商标和标志是Oracle Corporation和/或其附属公司的商标或注册商标)。
用于操作***、面向对象的编程***、以及应用、逻辑、或程序、诸如图1中的应用105以及储存库和签名109的指令位于一个或多个存储设备中的至少一个存储设备、诸如硬盘驱动器226上,并且可以被加载至一个或多个存储器中的至少一个存储器、诸如主存储器208中用于由处理单元206来执行。说明性实施例的处理可以由处理单元206通过使用计算机实现的指令来执行,计算机实现的指令可以位于存储器、诸如例如主存储器208、只读存储器224中,或者位于一个或多个***设备中。
图1至图2的硬件可以取决于实现方式而变化。除了或者替代图1至图2中所描绘的硬件,可以使用其他内部硬件或***设备,诸如闪速存储器、等同的非易失性存储器、或者光盘驱动器等。此外,可以将说明性实施例的处理应用于多处理器数据处理***。
在一些说明性示例中,数据处理***200可以是个人数字助理(PDA),其通常配置有闪速存储器以提供用于存储操作***文件和/或用户生成数据的非易失性存储器。总线***可以包括一个或多个总线,诸如***总线、I/O总线和PCI总线。当然,总线***可以通过使用任何类型的通信交换结构和架构来实现,其中该通信交换结构和架构提供数据在附接至该交换结构和架构的不同的部件或设备之间的传送。
通信单元可以包括用于发送和接收数据的一个或多个设备,诸如调制解调器或网络适配器。存储器可以是例如主存储器208或者高速缓存,诸如可以在北桥和存储器控制器集线器202中出现的高速缓存。处理单元可以包括一个或多个处理器或者CPU。
图1至图2中的所描绘的示例以及上述示例并非意在暗示架构限制。例如,除了采用PDA形式之外,数据处理***200还可以是平板计算机、笔记本计算机或电话设备。
参考图3,该图描绘根据说明性实施例的其中结构关系和相似性能够被标识的表格式数据的示例。表格300是图1中的文档109中出现的表格式数据的示例,其可以通过使用图1中的应用105根据表格结构和单元格相似性来被建模。
水平和竖直分隔线(rule-line)被描绘用于将表格和单元格分界,仅作为示例而非暗示对其的限制。可以用任意合适的形式表达表格或表格式数据,并且可以在说明性实施例的范围内用任何方式区别单元格。例如,缩排、单元格数据之间的间隔、表格式和非表格式内容中的不同间隔、符号、图形、用以图示表格式数据的特定视图或视点、或者这些的组合以及本文中表达表格式数据和单元格的其他实例方式可以被理解为在说明性实施例的范围内。
行302是包括用以将各个单元格中的数据组织成标题、类别或分类(类别)的若干首部的表格300的一部分。首部可以是行首304或者列首302。在说明性实施例的范围内,首部不限于表格边界或末端。例如,首部可以嵌入在表内、在单元格之间、诸如例如是用以标识表格式数据的子类别的子首部的形式。这样的子行或子列首部被理解为在说明性实施例的范围内。在一个实施例中,某种首部信息可以与对应的表格式数据独立地被规定,诸如在脚注、附录、另一表格或给定文档中的另一位置。
表格300的内容满足某些单元格相似性。例如,行首单元格、例如单元格306和308的数据类型彼此相似——它们所有都是年份。列首单元格、例如单元格310和312的数据类型彼此相似——它们所有都是字符串。区域314中的单元格彼此相似——它们都是实数。
现在考虑行316,其是列平均的行尾。区域318中的单元格的内容满足与区域314中的单元格的单元格相似性,这是因为它们也都是实数。然而,行首单元格320与其他行首单元格、诸如单元格306和308不相似。在行首单元格306和308的数据类型是“年份值”的情况下,行首单元格320的类型是字符串数据类型。因此,实施例认识到,没有行316的表格300的结构不同于具有行316的表格300的结构。
参考图4,该图描绘根据说明性实施例的可配置用以代表任何表格的通用结构表示。例如,结构400可配置用以代表图3中的表格300。
每个单元格的内容被表示为RCij,其中R是行标示字符(行标识符),C是列标示字符(列标识符)。例如,“H”表示行首单元格或者列首单元格,这分别取决于“H”出现在单元格的注释的第一位置还是第二位置。数字(1,2,……,n)表示超级单元格的行号或列号,这分别取决于该数字出现在单元格的注释的第一位置还是第二位置。“F”代表行尾单元格或者列尾单元格,这分别取决于“F”出现在单元格的注释的第一位置还是第二位置。
超级单元格是给定表格中彼此相关的单元格的组。超级单元格中的单元格彼此相关,使得相关的单元格的内容必须被一起理解以理解这些相关单元格中的任何单元格的内容的含义。超级单元格(RCij)还暗示地涉及对应的列首单元格(HCij)、其列尾单元格(RFij)、其行首单元格(RHij)和其行尾单元格(RFij)。
例如,回想早先描述的示例资产负债表。其中,描述资产的性质的单元格和包含资产的值的相邻单元格一起形成超级单元格。类似地,描述负债的性质的单元格和包含负债的值的相邻单元格一起形成另一超级单元格。其中,每个超级单元格是由于超级单元格的一行两列跨度所得的1x2矩阵。
类似地,超级单元格可以跨越任何数目的行和列中的任何数目的单元格。例如,超级单元格可以是2x2矩阵、2x3矩阵、7x5矩阵,并且一般而言是n x m矩阵。通过使用2x2超级单元格来描述示例结构400,仅用于清楚描述而非暗示对说明性实施例的任何限制。
每个超级单元格的每个元素中的RC的下标ij分别是超级单元格内的行号和列号。因此,结构400是具有如下的示例表格结构:多个行首402(每个大小为2行2列)和多个行尾404(每个大小为2行2列)、多个列首406(大小为2行2列)和多个列尾408(大小为2行2列)。该表格还包含在区域410中的大小为2行2列的9个超级单元格。
设Trh,rf,ch,cf,sr,sc为具有rh个行首、rf个行尾、ch个列首、cf个列尾以及大小为sr*sc的超级单元格的表格结构函数。结构400满足表格结构T2,2,2,2,2,2
给定表格结构T,则相同的表格中的两个单元格(r,c)和(r’,c’)在以下时应当相似,即,T(r,c,r’,c’):
两个单元格都是行首,即,((r,c)=nHij,(r′,c′)=n′Hi′j′并且i=i′,并且j=j′);或者
两个单元格都是行尾,即,((r,c)=nFij,(r′,c′)=n′Fi′j′,并且i=i′,并且j=j′);或者
两个单元格都是列首,即,((r,c)=Hmij,(r′,c′)=Hmi′j′,并且i=i′,并且j=j′);或者
两个单元格都是列尾,即,((r,c)=Fmij,(r′,c′)=Fm′i′j′,并且i=i′,并且j=j′);或者
两个单元格在不同的超级单元格中,即,((r,c)=nmij,(r′,c′)=n′m′i′j′,并且i=i′,并且j=j′
否则,两个单元格来自不同的区域,并且不要求单元格相似。单元格(r,c)应当与其自己相似。四个角落的单元格(HHij,HFij,FHij,FFij,)不与任何其他单元格进行比较。
现在,将单元格相似度函数和表格结构函数进行组合,两个单元格在如下时满足表格结构:
D(r,c,r′,c′)=IF T(r,c,r′,c′)THEN S(r,c,r′,c′),ELSE 1
在布尔结果的简单方面,无论何时表格结构暗示两个单元格应当相似,并且相似度函数通过使用给定单元格相似度函数验证两个单元格实际上相似的确认,则数据观测D(r,c,r′,c′)为真。否则,数据观测D(r,c,r′,c′)为假。在概率性方面,如在本公开内容的其他地方将变得更清楚的,如果T(r,c,r′,c′)为真,则D(r,c,r′,c′)为真的概率与S(r,c,r′,c′)为真的概率相同,否则为假。
换言之,当表格结构暗示两个单元格应当相似时,两个单元格仅以一定的概率相似。当断言更可能是真而非假时,概率超过阈值并且接近1,而当断言等同地可能或者更可能是假而非真时,概率等于或低于阈值并且接近0。
模型M是所选择的表格结构和所选择的单元格相似度函数的函数,并且被表示为M=(T,S)。特定模型拟合给定表格式数据的概率因此是根据该S是否总体对于给定表格式数据而验证了在该T中做出的单元格相似度断言而取得的概率值。不同模型M1,M2,...,Mn是表格结构和单元格相似度函数的不同组合。因此,不同模型以不同的概率拟合相同的表格。当断言对于多个单元格而言正确而非错误时,特定模型拟合给定表格式数据的概率超过阈值并且接近1,并且当断言对于该表格式数据中的相同的或者多个单元格而言错误而非正确时,该概率等于或低于阈值并且接近0。
参考图5,该图描绘根据说明性实施例的用以计算模型拟合给定表格式数据的概率的等式。所描绘的等式是示例,而非意在限制说明性实施例。应用105实现这些等式、其变型或者在说明性实施例的范围内的其他类似地提出的等式。
P(b|a)表示给定“a”的情况下“b”的条件概率。给定模型M=(T,S)和数据集D(即给定表格式数据),则贝叶斯规则提供等式502,即:
P(M|D)=αP(D|M)P0(M)
其中P(M|D)表示在给定表格式数据D的情况下M是正确模型的概率;P(D|M)是在给定特定表格结构的情况下、根据模型M而数据D中的单元格的全体相似的概率;P0是模型M的先验概率。
一个示例实施例使用似然性P(D|M)的贝努利分布(其是单元格相似的概率)和先验概率P0(M)的贝塔分布。
随机变量x的贝努利分布——能够取值x=1(概率为μ)或者x=0——为:
Bern(x|μ)≡μx(1-μ)1-x
随机变量x的贝塔分布——能够取值x=0或者x=1——为:
Beta ( μ | a , b ) ≡ Γ ( a + b ) Γ ( a ) Γ ( b ) μ a - 1 ( 1 - μ ) b - 1
其中Γ(x)为伽马函数。
一个实施例认识到,贝塔函数可以共轭于(conjugate to)贝努利函数结合,这意味着贝努利函数乘以贝塔分布得到贝塔分布。因此,所得后验概率P(M|D)也是贝塔分布。
Beta(μ|a+1,b)=Bern(x=1|μ)*Beta(μ|a,b)
Beta(μ|a,b+1)=Bern(x=0|μ)*Beta(μ|a,b)
虽然未必在所有情况下都是真,然而在使用贝努利函数和贝塔函数的实施例中,可以使用阈值(μ)来确定x是“可能真(probablytrue)”还是“可能假(probably false)”。给定具有贝努利分布和先验概率贝塔(μ0|a0,b0)的模型M,给定数据D,则模型M的概率为等式504,即:
概率阈值与贝努利函数和贝塔函数一起使用仅作为示例而非暗示对说明性实施例的限制。例如,一个实施例可以被配置成使用贝叶斯网络而没有一个或多个概率阈值。本领域技术人员可以认识到,可以使用其他数学函数或表示用于P(M|D)和先验概率P0,并且这些函数或表示被理解为在说明性实施例的范围内。
参考图6,该图描绘根据说明性实施例的确定所考虑的模型与给定表格式数据之间的最佳拟合的方式。表格600由应用105通过使用参考图4和图5描述的计算来生成。
用应用105实现的实施例评估多个候选模型Mi=(Ti,S),每个候选模型具有不同的Ti和相同的S函数。实施例通过使用数据观测D(r,c,r′,c′)来评估这些多个模型。实施例通过使用图5中的等式504来计算每个模型与给定数据之间拟合的概率。
表格600是这样的计算的结果的示例表示。列602指示模型M1是针对表格T1中的数据的最佳拟合,列604指示模型M2是针对表格T2中的数据的最佳拟合,列606指示模型MX是针对表格Tn中的数据的最佳拟合。换言之,从针对在给定语料库中标识的各种表格而被评估的模型M1...X的汇集中,表格T1具有用模型M1来描述的最高概率,表格T2具有用模型M2来描述的最高概率,表格Tn具有用模型MX来描述的最高概率。
一个实施例简单地通过寻找针对该表格而被测试的所有模型之中实现最高概率的模型来选择针对给定表格的最佳拟合模型。这一实施例总是产生选择,而无论对于该表格通过任何模型实现的最高概率有多低。
另一实施例通过首先使实现大于阈值概率的那些模型入围(short-list)来选择针对给定表格的最佳拟合模型。实施例然后从入围的模型中选择在所有入围的模型之中实现最高概率的模型。这一实施例可能不总是产生选择,诸如在通过针对表格被测试的所有模型中的任何模型实现的最高概率都不能超过阈值的情况下。
例如,假定挑选拟合模型的阈值概率为60%,或者好于0.6概率。另外假定示例模型M1的概率为0.2,M2的概率为0.7,M3的概率为0.65。这一实施例不考虑模型M1,并且从M2和M3的入围列表中选择M3。现在假定示例模型M1的概率为0.2,M2的概率为0.25,M3的概率为0.28。这一示例不选择任何模型,因为没有一个模型的概率超过阈值概率并且最终入围列表为空。相比而言,没有阈值概率的实施例可以选择M3,因为M3在M1、M2和M3之中具有最高概率。
针对待考虑的每个模型计算每个单元格配对与另一单元格配对相似的概率可能是计算上昂贵的。实施例通过评估数据观测D(r,c,r′,c′)的随机样本的概率来近似模型拟合的概率。实施例通过如下方式在模型的概率预测方面实现期望的精确程度,同时实现可接受的计算资源代价,即通过随机地选择所有单元格配对(r,c)和(r′,c′)的子集,并且通过使用仅如下样本单元格配对来评估概率,
一个实施例开始通过使用预定最小数目Nmin的样本来评估概率,并且只要模型的概率维持在某个阈值概率之下则继续采样。由于计算的上边界,另一实施例在某个最大数目Nmax的样本已经被评估时停止进一步的采样和计算。一个实施例用以上关于图6描述的方式选择实现采样内的最高概率的表格结构Mi
参考图7,该图描绘根据说明性实施例的选择用以代表表格式信息的模型的示例过程的流程图。过程700可以用图1的应用105来实现。
应用接收包括至少一个表格式数据的语料库(块702)。应用从语料库中选择表格(块704)。应用定义表格结构T(块706)。在一个实施例中,预定表格结构的汇集诸如在储存库中可用,并且应用在块706中从汇集中选择预定表格结构而非定义新的表格结构。
应用选择单元格相似度函数S(块708)。应用根据所选择的表格结构选择其中单元格应当彼此相似的单元格配对(块710)。应用根据所选择的单元格相似度函数S确定所选择的单元格配对中的单元格实际上是否彼此相似(块712)。如果单元格以阈值或小于阈值概率彼此相似(块712的“可能不是”路径),则应用根据情况针对单元格配对记录概率的阈值(μ)值或者阈值以下(<μ)值(块714)。
如果单元格以大于阈值(>μ)的概率(块712的“可能是”路径)彼此相似,则应用针对单元格配对记录概率的阈值以上值(块716)。应用将来自块714或716的概率累积至针对所选择的表格结构和相似度函数模型M的概率(块718)。例如,通过降低或增加模型的先前计算的平均概率,块714或716的概率分别降低或增加模型的整个概率。
应用确定是否必须用类似的方式来评估更多单元格配对(块720)。如果要评估来自采样或者来自整个所选表格的更多单元格配对(块720的“是”路径),则应用将过程700返回至块710。如果不要评估更多的单元格配对(块720的“否”路径),则应用输出模型M=(T,S)拟合所选择的表格的概率(块722)。
应用确定是否要针对所选择的表格评估更多模型(块724)。如果要评估更多的模型(块724的“是”路径),则应用将过程700返回至块706以定义或选择另一表格结构函数T。如果针对所选表格不要评估的更多模型,则应用确定语料库中是否存在要用这种方式建模的更多表格(块726)。如果是(块726的“是”路径),则应用将过程700反回至块704以选择另一表格。如果不是(块726的“否”路径),应用针对每个表格选择对于该表格实现最高概率的相应的模型(块728)。应用之后结束过程700。
图中的流程图和框图图示根据本发明的多种实施例的***、方法和计算机产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个块可以表示模块、分段、代码的部分,其包括用于实现规定的逻辑功能的一个或多个可执行指令。还应当注意,在一些替选实现中,在块中注释的功能可以不按照图中注释的顺序来出现。例如,依次示出的两个块实际上可以基本上同时执行,或者这些块有时可以按照相反的顺序执行,这取决于所涉及的功能。还应当注意,框图和/或流程图图示的每个块以及框图和/或流程图图示中的块的组合可以用执行规定功能或动作的专用的基于硬件的***来实现,或者用专用硬件和计算机指令的组合来实现。
因此,说明性实施例中提供了计算机实现的方法、***和计算机程序产品以用于选择用以代表表格式信息的结构。实施例发现了适于表示在文档中以表格形式被呈现的数据的结构。通过使用这一结构,实施例还可以被配置成输出在其合适的情境下描述各种表格单元格的内容的陈述或文本。另一应用、诸如NLP引擎可以被配置成接受所生成的陈述并且将陈述转换为合适的自然语言形式。另一应用、诸如Q&A***可以接受实施例生成的陈述、自然语言形式的陈述、或者其组合,以回答涉及语料库的主题领域的问题。
所属技术领域的技术人员知道,本发明可以实现为***、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“***”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读介质上包含的程序代码或计算机可读介质可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
用于执行本发明的方面的操作的计算机程序代码可以用一个或多个编程语言的任意组合来编写,编程语言包括面向对象的编程语言诸如Java、Smalltalk、C++等以及传统的程序编程语言、诸如“C”编程语言或类似的编程语言。程序代码可以全部在用户的计算机上、部分在用户的计算机上作为孤立的软件包、部分在用户的计算机上并且部分在远程计算机上、或者完全在远程计算机或服务器上来执行。在在后的场景下,远程计算机可以通过任何类型的网络、包括局域网(LAN)或广域网(WAN)连接至用户的计算机,或者可以进行与外部计算机的连接(例如,通过使用因特网服务提供商通过因特网)。
本文中参考根据本发明的实施例的方法、装置(***)和计算机程序产品的流程图和/或框图来描述本发明的各方面。可以理解,流程图和/或框图的每个块、以及流程图和/或框图中的块的组合可以用计算机程序指令来实现。这些计算机程序指令可以被提供给一个或多个通用计算机、专用计算机、或者其他可编程数据处理设备的一个或多个处理器以产生机器,使得经由计算机或其他可编程数据处理装置的一个或多个处理器执行的指令创建用于实现在流程图和/或框图或块中规定的功能/动作的装置。
这些计算机程序指令还可以存储在一个或多个计算机可读存储设备或者计算机可读介质中,这些存储设备或介质可以指示一个或多个计算机、一个或多个其他可编程数据处理装置、或者一个或多个其他设备以特定方式起作用,使得存储在一个或多个计算机可读存储设备或计算机可读介质中的指令能够产生制造品,该制造品包括实现在流程图和/或框图或块中规定的功能/动作。
计算机程序指令还可以被加载至一个或多个计算机、一个或多个其他可编程数据处理装置、或者一个或多个其他设备上以使得能够在一个或多个计算机、一个或多个其他可编程数据处理装置、或者一个或多个其他设备上执行一系列操作步骤以产生计算机实现的过程,使得在一个或多个计算机、一个或多个其他可编程数据处理装置、或者一个或多个其他设备上执行的指令能够提供用于实现在流程图和/或框图或块中规定的功能/动作的处理。
本文中所使用的术语仅出于描述具体的实施例的目的,而非意在限制本发明。如本文中所使用的,单数形式的“一个”、“一种”和“该”意在也包括复数形式,除非上下文另外清楚地指出。还应当理解,术语“包括”和/或“包含”在本说明书中使用时规定所陈述的特征、整体、步骤、操作、元件和/或部件的存在,但不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合的存在或添加。
以下权利要求中的所有装置或步骤以及功能元件的对应结构、材料、动作和等同物意在包括用于结合如具体要求保护的其他要求保护的元件执行功能的任何结构、材料或动作。呈现本发明的实施例用于说明和描述,而非意在排除或限制本发明为所公开的形式。本领域技术人员可以很清楚没有偏离本发明的范围和精神的很多修改和变型。选择和描述实施例以便最好地解释本发明的原理和实际应用,以及使得本领域其他技术人员能够理解本发明的具有适合预期的特定用途的各种修改的各种实施例。

Claims (16)

1.一种用于选择用以代表表格式信息的结构的方法,所述方法包括:
从表格结构的汇集中选择与表格对应的表格结构,表格结构函数描述所述表格结构中的单元格配对中的单元格何时应当彼此相似,所述表格是问答***(Q&A***)的语料库的一部分,其中所述Q&A***使用所述语料库来回答自然语言问题;
选择单元格相似度函数,其中所述单元格相似度函数根据准则来比较所述表格结构中的所述单元格配对中的所述单元格并且输出所述单元格配对包括包含有彼此相似的值的单元格的概率;
根据所述单元格相似度函数来确定所述表格结构中的第一单元格配对中的第一单元格和第二单元格彼此相似的单元格相似概率;
使用所述单元格相似概率来调整所述表格结构代表所述表格的计算的概率;以及
将所述计算的概率指示为第一模型代表所述表格的概率,其中所述第一模型是所述表格结构和所选择的单元格相似度函数的函数。
2.根据权利要求1所述的方法,还包括:
选择与所述表格对应的第二表格结构;
从所述第二表格结构中选择第二单元格配对;
根据所述单元格相似度函数确定所述第二单元格配对中的第一单元格和第二单元格彼此相似的单元格相似概率;
使用所述单元格相似概率调整所述第二表格结构代表所述表格的第二计算的概率;
将所述第二计算的概率指示为第二模型代表所述表格的概率,其中所述第二模型是所述第二表格结构和所选择的单元格相似度函数的函数;
从模型的集合中选择具有较高的计算的概率的模型以形成选择的模型,所述模型的集合包括所述第一模型和所述第二模型;以及
根据所选择的模型形成对所述表格的解释,其中所述Q&A***使用所述解释来回答所述自然语言问题。
3.根据权利要求2所述的方法,还包括:
将第三计算的概率指示为第三模型代表所述表格的概率,其中所述第三模型是第三表格结构和所选择的单元格相似度函数的函数,其中所述选择从所述模型集的子集中选择,其中所述子集包括其对应的计算的概率超过概率阈值的那些模型。
4.根据权利要求1所述的方法,其中所述调整包括:
在对若干单元格配对计算所述表格结构的平均单元格相似概率时使用所述单元格相似概率。
5.根据权利要求1所述的方法,其中针对所述表格结构中存在的所有单元格配对的集合的子集执行所述选择所述第一单元格配对、所述确定所述单元格相似概率以及所述调整。
6.根据权利要求1所述的方法,其中所述单元格相似度函数中的所述准则要求给定单元格配对中的所述单元格中的所述值的类型相匹配。
7.根据权利要求1所述的方法,其中所述单元格相似度函数中的所述准则要求给定单元格配对中的所述单元格中的所述值在彼此的范围内。
8.根据权利要求1所述的方法,其中所述定义还包括:
标识所述表格中的超级单元格,其中所述超级单元格包括相邻单元格的集合,其中所述相邻单元格的集合中的第一单元格的内容描述所述相邻单元格的集合中的第二单元格的内容。
9.根据权利要求8所述的方法,其中所述第一单元格配对包括第一超级单元格和第二超级单元格。
10.根据权利要求1所述的方法,还包括:
标识在所述表格中的行首单元格的集合;以及
标识在所述表格中的列首单元格的集合。
11.根据权利要求10所述的方法,其中所述第一单元格配对包括在所述表格中的第一行首单元格和第二行首单元格。
12.根据权利要求10所述的方法,其中所述第一单元格配对包括在所述表格中的第一列首单元格和第二列首单元格。
13.根据权利要求1所述的方法,其中所述表格包括行坐标和列坐标并且包括所述表格式数据,其中所述表格中的至少一个单元格不能用所述表格的所述行坐标和所述列坐标来标识,并且其中所述至少一个单元格与所述表格中的至少一个其他单元格相关,使得在所述至少一个单元格中的值提供用于解释在所述至少一个其他单元格中的值的情境信息。
14.根据权利要求1所述的方法,其中所述表格被包括在具有第二表格的文档中,所述第二表格包括第二表格式数据,所述方法还包括:
定义与所述第二表格对应的第二表格结构;
选择第二单元格相似度函数;
将第二计算的概率指示为第二模型代表所述第二表格的概率,其中所述第二模型是所述第二表格结构和所述第二单元格相似度函数的函数;以及
根据所述第二模型形成所述第二表格的第二解释,其中所述Q&A***还使用所述第二解释来回答所述自然语言问题。
15.根据权利要求1所述的方法,还包括:
确定所述表格结构的汇集是否包括适用于所述表格的合适的表格结构,其中所述选择是汇集表格结构,包括一个合适的表格结构,并且其中所述表格结构是所述合适的表格结构;以及
响应于确定所述表格结构的汇集不包括所述合适的表格结构,定义所述表格结构。
16.一种用于选择用以代表表格式信息的结构的数据处理***,所述数据处理***包括:
包括存储介质的存储设备,其中所述存储设备存储计算机可用程序代码;以及
处理器,其中所述处理器执行所述计算机可用程序代码,并且其中所述计算机可用程序代码包括:
用于从表格结构的汇集中选择与表格对应的表格结构的计算机可用代码,表格结构函数描述所述表格结构中的单元格配对中的单元格何时应当彼此相似,所述表格是问答***(Q&A***)的语料库的一部分,其中所述Q&A***使用所述语料库来回答自然语言问题;
用于选择单元格相似度函数的计算机可用代码,其中所述单元格相似度函数根据准则来比较所述表格结构中的所述单元格配对中的所述单元格并且输出所述单元格配对包括包含有彼此相似的值的单元格的概率;
用于根据所述单元格相似度函数来确定所述表格结构中的第一单元格配对中的第一单元格和第二单元格彼此相似的单元格相似概率的计算机可用代码;
用于使用所述单元格相似概率来调整所述表格结构代表所述表格的计算的概率的计算机可用代码;以及
用于将所述计算的概率指示为第一模型代表所述表格的概率的计算机可用代码,其中所述第一模型是所述表格结构和所选择的单元格相似度函数的函数。
CN201410678045.4A 2013-12-17 2014-11-21 用于选择用以代表表格式信息的方法和*** Active CN104714931B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/109,366 2013-12-17
US14/109,366 US9836526B2 (en) 2013-12-17 2013-12-17 Selecting a structure to represent tabular information

Publications (2)

Publication Number Publication Date
CN104714931A true CN104714931A (zh) 2015-06-17
CN104714931B CN104714931B (zh) 2019-04-12

Family

ID=53368746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410678045.4A Active CN104714931B (zh) 2013-12-17 2014-11-21 用于选择用以代表表格式信息的方法和***

Country Status (2)

Country Link
US (2) US9836526B2 (zh)
CN (1) CN104714931B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446950A (zh) * 2015-12-29 2016-03-30 山东海量信息技术研究院 一种excel文件数据的输出方法
CN112711933A (zh) * 2020-12-31 2021-04-27 深轻(上海)科技有限公司 一种利用电子表格进行寿险精算模型校验的方法
WO2022123370A1 (en) * 2020-12-11 2022-06-16 International Business Machines Corporation Finding locations of tabular data across systems

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000071078A (ko) * 1997-02-14 2000-11-25 헬렌 브이. 단요 유한 필드상의 이산 대수 암호시스템의 원분 다항식 구조
US9405448B2 (en) 2012-08-30 2016-08-02 Arria Data2Text Limited Method and apparatus for annotating a graphical output
US8762133B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for alert validation
US9135244B2 (en) 2012-08-30 2015-09-15 Arria Data2Text Limited Method and apparatus for configurable microplanning
US8762134B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for situational analysis text generation
US9336193B2 (en) 2012-08-30 2016-05-10 Arria Data2Text Limited Method and apparatus for updating a previously generated text
US9600471B2 (en) 2012-11-02 2017-03-21 Arria Data2Text Limited Method and apparatus for aggregating with information generalization
WO2014076524A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for spatial descriptions in an output text
WO2014076525A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for expressing time in an output text
US9990360B2 (en) 2012-12-27 2018-06-05 Arria Data2Text Limited Method and apparatus for motion description
WO2014102568A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion detection
GB2524934A (en) 2013-01-15 2015-10-07 Arria Data2Text Ltd Method and apparatus for document planning
US9946711B2 (en) 2013-08-29 2018-04-17 Arria Data2Text Limited Text generation from correlated alerts
US9396181B1 (en) 2013-09-16 2016-07-19 Arria Data2Text Limited Method, apparatus, and computer program product for user-directed reporting
US9244894B1 (en) 2013-09-16 2016-01-26 Arria Data2Text Limited Method and apparatus for interactive reports
WO2015159133A1 (en) 2014-04-18 2015-10-22 Arria Data2Text Limited Method and apparatus for document planning
US9679198B2 (en) 2015-11-05 2017-06-13 International Business Machines Corporation Ingestion plan based on table uniqueness
CN106021403B (zh) * 2016-05-12 2019-06-04 北京奔影网络科技有限公司 客服方法及装置
CN106228246A (zh) * 2016-07-15 2016-12-14 江苏科技大学 基于语义的无人职守变电站监测***及方法
US10445432B1 (en) 2016-08-31 2019-10-15 Arria Data2Text Limited Method and apparatus for lightweight multilingual natural language realizer
US10467347B1 (en) 2016-10-31 2019-11-05 Arria Data2Text Limited Method and apparatus for natural language document orchestrator
CN107818164A (zh) * 2017-11-02 2018-03-20 东北师范大学 一种智能问答方法及其***
US10482180B2 (en) * 2017-11-17 2019-11-19 International Business Machines Corporation Generating ground truth for questions based on data found in structured resources
KR102102276B1 (ko) * 2018-12-28 2020-04-22 동국대학교 산학협력단 딥러닝 기반의 표 유사도 측정 방법
US11132492B2 (en) * 2019-10-07 2021-09-28 Vyasa Analytics, LLC Methods for automated filling of columns in spreadsheets

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090313205A1 (en) * 2008-06-03 2009-12-17 Justsystems Corporation Table structure analyzing apparatus, table structure analyzing method, and table structure analyzing program
US20100191686A1 (en) * 2009-01-23 2010-07-29 Microsoft Corporation Answer Ranking In Community Question-Answering Sites
CN102164308A (zh) * 2010-02-17 2011-08-24 索尼公司 信息处理装置、信息处理方法和程序
CN102799570A (zh) * 2012-07-20 2012-11-28 中山大学 一种数据表关联分析方法
CN103049475A (zh) * 2011-10-28 2013-04-17 微软公司 用于源目标映射的基于电子表格程序的数据分类
US20130103615A1 (en) * 2009-02-11 2013-04-25 Johnathan Mun Project economics analysis tool
US20130297545A1 (en) * 2012-05-04 2013-11-07 Pearl.com LLC Method and apparatus for identifying customer service and duplicate questions in an online consultation system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8712944B1 (en) * 2011-05-13 2014-04-29 Google Inc. Adaptive contact window wherein the probability that an answering user/expert will respond to a question corresponds to the answering users having response rates that are based on the time of day
US20150046151A1 (en) * 2012-03-23 2015-02-12 Bae Systems Australia Limited System and method for identifying and visualising topics and themes in collections of documents
US20140046696A1 (en) * 2012-08-10 2014-02-13 Assurerx Health, Inc. Systems and Methods for Pharmacogenomic Decision Support in Psychiatry
US9443005B2 (en) * 2012-12-14 2016-09-13 Instaknow.Com, Inc. Systems and methods for natural language processing
US10685062B2 (en) * 2012-12-31 2020-06-16 Microsoft Technology Licensing, Llc Relational database management
US9418086B2 (en) * 2013-08-20 2016-08-16 Microsoft Technology Licensing, Llc Database access

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090313205A1 (en) * 2008-06-03 2009-12-17 Justsystems Corporation Table structure analyzing apparatus, table structure analyzing method, and table structure analyzing program
US20100191686A1 (en) * 2009-01-23 2010-07-29 Microsoft Corporation Answer Ranking In Community Question-Answering Sites
US20130103615A1 (en) * 2009-02-11 2013-04-25 Johnathan Mun Project economics analysis tool
CN102164308A (zh) * 2010-02-17 2011-08-24 索尼公司 信息处理装置、信息处理方法和程序
CN103049475A (zh) * 2011-10-28 2013-04-17 微软公司 用于源目标映射的基于电子表格程序的数据分类
US20130297545A1 (en) * 2012-05-04 2013-11-07 Pearl.com LLC Method and apparatus for identifying customer service and duplicate questions in an online consultation system
CN102799570A (zh) * 2012-07-20 2012-11-28 中山大学 一种数据表关联分析方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446950A (zh) * 2015-12-29 2016-03-30 山东海量信息技术研究院 一种excel文件数据的输出方法
CN105446950B (zh) * 2015-12-29 2018-08-14 山东海量信息技术研究院 一种excel文件数据的输出方法
WO2022123370A1 (en) * 2020-12-11 2022-06-16 International Business Machines Corporation Finding locations of tabular data across systems
US11500886B2 (en) 2020-12-11 2022-11-15 International Business Machines Corporation Finding locations of tabular data across systems
GB2616577A (en) * 2020-12-11 2023-09-13 Ibm Finding locations of tabular data across systems
CN112711933A (zh) * 2020-12-31 2021-04-27 深轻(上海)科技有限公司 一种利用电子表格进行寿险精算模型校验的方法
CN112711933B (zh) * 2020-12-31 2024-07-12 深轻(上海)科技有限公司 一种利用电子表格进行寿险精算模型校验的方法

Also Published As

Publication number Publication date
US20150169720A1 (en) 2015-06-18
CN104714931B (zh) 2019-04-12
US9916378B2 (en) 2018-03-13
US9836526B2 (en) 2017-12-05
US20150169737A1 (en) 2015-06-18

Similar Documents

Publication Publication Date Title
CN104714931A (zh) 用于选择用以代表表格式信息的方法和***
CN112084383A (zh) 基于知识图谱的信息推荐方法、装置、设备及存储介质
US9189541B2 (en) Evidence profiling
Stern et al. A confidence model for syntactically-motivated entailment proofs
CN109739978A (zh) 一种文本聚类方法、文本聚类装置及终端设备
CN111401700A (zh) 一种数据分析方法、装置、计算机***及可读存储介质
US10372763B2 (en) Generating probabilistic annotations for entities and relations using reasoning and corpus-level evidence
CN112925914B (zh) 数据安全分级方法、***、设备及存储介质
CN112183881A (zh) 一种基于社交网络的舆情事件预测方法、设备及存储介质
CN117251685B (zh) 一种基于知识图谱的标准化政务数据构建方法和装置
CN111507108B (zh) 别名生成方法、装置、电子设备及计算机可读存储介质
CN112632255A (zh) 一种获取问答结果的方法及装置
Prilepok et al. Spam detection using data compression and signatures
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
WO2023272563A1 (zh) 智能分诊方法、装置、存储介质及电子设备
CN112529743B (zh) 合同要素抽取方法、装置、电子设备及介质
Huang et al. A recommendation model for medical data visualization based on information entropy and decision tree optimized by two correlation coefficients
Alizadeh et al. Operational approach to Z-information-based decision making
CN117649117B (zh) 处置方案的确定方法、装置以及计算机设备
Alaran et al. A new LCS-neutrosophic similarity measure for text information retrieval
CN116737870B (zh) 上报信息存储方法、装置、电子设备和计算机可读介质
US8073809B2 (en) Graphical model for data validation
US11604841B2 (en) Mechanistic mathematical model search engine
Bellodi The distribution semantics in probabilistic logic programming and probabilistic description logics: a survey
KUNSCH Medical code classification based on free-text clinical notes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant