CN103793372A - 从电子文档中的表格结构提取语义关系 - Google Patents

从电子文档中的表格结构提取语义关系 Download PDF

Info

Publication number
CN103793372A
CN103793372A CN201310495714.XA CN201310495714A CN103793372A CN 103793372 A CN103793372 A CN 103793372A CN 201310495714 A CN201310495714 A CN 201310495714A CN 103793372 A CN103793372 A CN 103793372A
Authority
CN
China
Prior art keywords
hyperelement
data structure
list data
semantic relation
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310495714.XA
Other languages
English (en)
Inventor
S·N·格拉德
M·G·梅格里安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103793372A publication Critical patent/CN103793372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

提供在数据处理***中用于提取在与电子文档关联的表格数据结构中的表格内容之间的语义关系的机制。这些机制确定表格数据结构内的单元配置。该机制基于确定的单元配置标识表格数据结构内的一个或者多个超单元。该机制也对于一个或者多个超单元中的每个超单元将与超单元对应的表格数据转换成用于超单元的语义关系语句,其中语义关系语句标识在与超单元对应的表格数据的部分之间的一个或者多个关系。机制还与表格数据结构关联地存储用于超单元中的每个超单元的语义关系语句。

Description

从电子文档中的表格结构提取语义关系
技术领域
本申请主要地涉及一种改进的数据处理装置和方法,并且更具体地涉及用于从电子文档中的表格结构提取语义关系的机制。
背景技术
自然语言处理(NLP)***、问答创建(Q&A)***等利用电子文档的文本内容分析以执行它们的各种活动。例如可从纽约阿芒克的国际商业机器(IMB)公司获得的称为WatsonTM的Q&A***分析电子文档的无结构文本内容,以回答问题并且从文本内容推导结论。
尽管这些***对文本内容行之有效,但是许多时候在电子文档中的表格结构中呈现或者捕获知识和信息。这样的NLP和Q&A***不能充分地处理这样的表格结构以收集在这些表格结构中呈现的信息和知识。
发明内容
在一个说明性实施例中,提供一种在数据处理***中用于提取在与电子文档关联的表格数据结构中的表格内容之间的语义关系的方法。该方法包括确定表格数据结构内的单元配置。该方法还包括基于确定的单元配置来标识表格数据结构内的一个或者多个超单元。另外,该方法包括对于一个或者多个超单元中的每个超单元将与超单元对应的表格数据转换成用于超单元的语义关系语句,其中语义关系语句标识在与超单元对应的表格数据的部分之间的一个或者多个关系。该方法还包括与表格数据结构关联地存储用于超单元中的每个超单元的语义关系语句。
在其它说明性实施例中,提供一种包括具有计算机可读程序的计算机可用或者可读介质的计算机程序产品。计算机可读程序在计算设备上执行时使计算设备执行以上关于方法说明性实施例概括的操作中的各种操作和组合。
在又一说明性实施例中,提供一种***/装置。该***/装置可以包括一个或者多个处理器和耦合到该一个或者多个处理器的存储器。存储器可以包括指令,这些指令在由该一个或者多个处理器执行时使该一个或者多个处理器执行以上关于方法说明性实施例概括的操作中的各种操作和组合。
本发明的这些和其它特征及优点将在本发明的说明性实施例的以下具体描述中被描述或者将鉴于该具体描述而变得为本领域普通技术人员所清楚。
附图说明
将通过参照在结合附图阅读时对说明性实施例的以下具体描述来最好地理解本发明及其优选实施方式和更多目的及优点,在附图中:
图1是其中可以实施说明性实施例的方面的分布式数据处理***的示例图;
图2是其中可以实施说明性实施例的方面的计算设备的示例框图;
图3是示出根据一个说明性实施例的表格结构的示例图,该示例图示出表格结构的要素,这些要素用于确定表格结构的语义;
图4是图示根据一个说明性实施例的元组的示例组织的示例图;
图5A-图5D图示可以用来实施说明性实施例的其它示例表格结构;
图6是根据一个说明性实施例的表格结构语义提取引擎的示例框图;以及
图7是概括根据一个说明性实施例的示例操作的流程图,该示例操作用于提取表格结构语义信息并且制定表格结构的语义表示。
具体实施方式
说明性实施例提供用于从在电子文档中嵌入的或者与电子文档关联的表格结构提取语义关系的机制。如以上所言,自然语言处理(NLP)、问答创建(Q&A)***等不能恰当处理这样的表格结构,因为它们未被配置用于理解这样的表格结构的结构,或者以有含义的方式识别在这样的表格中包含的信息之间的关系。这是因为这样的NLP和Q&A***、比如IBM公司的WatsonTM Q&A***对在句子结构中呈现的信息进行操作,并且分析恰当形成的句子的语法以收集关于电子文档的内容的信息。
说明性实施例提供用于将表格结构映射到代表那些表格结构中的信息的文本语句或者分析引擎可以被配置用于利用的其它形式的结构化信息的机制。说明性实施例提供一种对在电子文档中的表格结构给定时如何可以提取表格结构的含义或者语义、从而可以编程地处理这些语义的解决方案。
也就是说,许多表格结构具有在表格结构中的单元之间的关系的丰富集合。这些关系可以包括与相同行中的头标和脚注单元的水平关系、与相同列中的头标和脚注单元的竖直关系、与表格结构的“拐角”单元和与表格结构的标题的列表/上下文关系、在邻近单元之间的邻居关系等。说明性实施例提供用于从表格结构提取这样的语义关系、并且将它们制定成分析引擎可使用的结构的机制。这一制定可以例如包括生成代表在表格结构中的信息之间的语义关系的句子结构、具有代表这些语义关系的内容的结构化查询语言(SQL)语句、语义三元组如资源描述框架(RDF)或者N3等。为了易于说明而将使用2维表格结构来描述说明性实施例,但是本领域普通技术人员将理解可以用如可以在计算机模型、数据仓库等中提供的具有多于2个维度的表格结构实施说明性实施例的机制。
根据一个说明性实施例从表格结构提取含义(或者语义)包括以下三个操作:结构标识、元组生成和构造语义表示。关于结构标识,确定行头标(row header)、行脚注(row footer)、列头标和列脚注的大小以及表格结构中的超单元(super cell)的大小。这提供用来解析表格结构以基于表格的结构提取表格结构的内容和关系的结构信息。
元组生成涉及到为每个超单元构造元组。元组包含超单元的内容(邻居有关单元)以及所有超单元的水平、垂直和图形相关(tabularly-related)单元的内容。构造语义表示涉及到使用表格结构的模板以将每个元组独立转换成目标语义表示。可以将所得的语义表示***到电子文档中的表格结构中,或者与该电子文档中的表格结构关联或者一般向电子文档关联。作为结果,语义表示可以由NLP、Q&A和利用语义表示的其它分析***来处理。
所属技术领域的技术人员知道,本发明的各个方面可以实现为***、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中指定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中指定的功能/动作的指令的制造品(article of manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现指定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行指定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
因此,可以在许多不同类型的数据处理环境中利用说明性实施例。为了提供用于描述说明性实施例的具体单元和功能的上下文,下文提供图1和图2作为其中可以实施说明性实施例的方面的示例环境。应当理解图1和图2仅为示例而未旨在于关于其中可以实施本发明的方面或者示例的环境确立或者暗示任何限制。可以作出对所描绘的环境的诸多修改而不背离本发明的精神和范围。
图1描绘其中可以实施说明性实施例的方面的示例分布式数据处理***的图解表示。分布式数据处理***100可以包括其中可以实施说明性实施例的方面的计算机网络。分布式数据处理***100包含至少一个网络102,该至少一个网络是用来在分布式数据处理***100内连接在一起的各种设备和计算机之间提供通信链路的介质。网络102可以包括连接、比如有线、无线通信链路或者光纤线缆。
在描绘的示例中,服务器104和服务器106与存储单元108一起连接到网络102。此外,客户端110、112和114也连接到网络102。这些客户端110、112和114可以例如是个人计算机、网络计算机等。在描绘的示例中,服务器104向客户端110、112和114提供数据、比如引导文件、操作***映像和应用。客户端110、112和114在描绘的示例中是服务器104的客户端。分布式数据处理***100可以包括未示出的附加服务器、客户端和其它设备。
在描绘的示例中,分布式数据处理***100是网络因特网102,该网络因特网代表使用传输控制协议/网际协议(TCP/IP)协议套件相互通信的网络和网关的全世界汇集。在因特网的核心是在包括传送数据和消息的数以千计的商业、政府、教育和其它计算机***的主要节点或者主机计算机之间的高速数据通信链路的中枢。当然,也可以实施分布式数据处理***100以包括许多不同类型的网络、如例如内联网、局域网(LAN)、广域网(WAN)等。如上文所言,图1旨在于作为示例、并非作为对于本发明的不同实施例的架构限制,因此图1中所示特定单元不应视为关于其中可以实施本发明的说明性实施例的环境进行限制。
图2是其中可以实施说明性实施例的方面的示例数据处理***的框图。数据处理***200是实施用于本发明的说明性实施例的过程的计算机可用代码或者指令可以位于其中的计算机的示例、比如图1中的客户端110。
在描绘的示例中,数据处理***200运用集线器架构,该集线器架构包括北桥和存储器控制器集线器(NB/MCH)202以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。处理单元206、主存储器208和图形处理器210连接到NB/MCH202。图形处理器210可以通过加速图形端口(AGP)连接到NB/MCH202。
在描绘的示例中,局域网(LAN)适配器212连接到SB/ICH204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、硬盘驱动(HDD)226、CD-ROM驱动230、通用串行总线(USB)端口和其它通信端口232以及PCI/PCIe设备234通过总线238和总线240连接到SB/ICH204。PCI/PCIe设备可以例如包括以太网适配器、附加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器而PCIe未使用。ROM224可以例如是闪存基本输入/输出***(BIOS)。
HDD226和CD/ROM驱动230通过总线240连接到SB/ICH204。HDD226和CD-ROM驱动230可以例如使用集成驱动电子装置(IDE)或者串行高级技术附着(SATA)接口。超I/O(SIO)设备236可以连接到SB/ICH204。
操作***在处理单元206上运行。操作***协调图2中的数据处理***200内的各种部件并且提供对这些部件的控制。作为客户端,操作***可以是商用操作***、比如
Figure BDA0000399099170000082
面向对象编程***、比如JavaTM编程***可以结合操作***运行并且提供从在数据处理***200上执行的JavaTM程序或者应用对操作***的调用。
作为服务器,数据处理***200可以例如是运行高级交互执行程序
Figure BDA0000399099170000083
操作***或者操作***的
Figure BDA0000399099170000085
eServerTMSystem
Figure BDA0000399099170000086
计算机***。数据处理***200可以是包括处理单元206中的多个处理器的对称多处理器(SMP)***。备选地,可以运用单处理器***。
用于操作***、面向对象编程***和应用或者程序的指令位于存储设备、比如HDD226上并且可以被加载到主存储器208中用于由处理单元206执行。处理单元206可以例如使用可以位于存储器、如例如主存储器208、ROM224中或者一个或者多个***设备226和230中的计算机可用程序代码来执行用于本发明的说明性实施例的过程。
总线***、比如如图2中所示总线238或者总线240可以包括一个或者多个总线。当然,可以使用任何类型的通信结构或者架构来实施总线***,该通信结构或者架构提供在附着到该结构或者架构的不同部件或者设备之间的数据传送。通信单元、比如图2的调制解调器222或者网络适配器212可以包括用来发送和接收数据的一个或者多个设备。存储器可以例如是主存储器208、ROM224或者比如在图2中的NB/MCH202中发现的高速缓存。
本领域普通技术人员将理解图1和图2中的硬件可以根据实现而变化。除了图1和图2中描绘的硬件之外还可以使用或者取代该硬件使用其它内部硬件或者***设备、比如闪存、等效非易失性存储器或者光盘驱动等。说明性实施例的过程也可以应用于除了先前提到的SMP***之外的多处理器数据处理***而未脱离本发明的精神实质和范围。
另外,数据处理***200可以采用包括客户端计算设备、服务器计算设备、写字板计算机、膝上型计算机、电话或者其它通信设备、个人数字助理(PDA)等的许多不同数据处理***中的任何数据处理***的形式。在一些说明性示例中,数据处理***200可以例如是配置有闪存的便携计算设备,该闪存用于提供用于存储操作***文件和/或用户生成的数据的非易失性存储器。实质上,数据处理***200可以是任何已知或者以后开发的数据处理***而无架构限制。
再次参照图1,可以在包括服务器104、106和/或客户端110-114的图1中所示计算设备中的任何一个或者多个计算设备中实施本发明的说明性实施例。在一些说明性实施例中,结合用于分析一个或者多个存储***/设备中存储的电子文档的分析引擎实施说明性实施例的机制。这一分析引擎可以采用包括自然语言处理(NLP)分析引擎、问答创建(Q&A)***等的许多不同形式。说明性实施例的机制和说明性实施例与之关联的分析引擎分析的电子文档可以存储于说明性实施例的机制和分析引擎在其上执行的计算设备本地、可以远程位于与其它计算设备关联并且经由一个或者多个网络102可访问的存储***/设备上、可以包括本地和远程维护的电子文档并且可以分布于经由一个或者多个网络102可访问的多个计算设备和存储***/设备内。在一个说明性实施例中,电子文档(能够具有嵌入式表格结构或者与电子文档关联的表格结构)可以是从任何客户端计算设备、服务器、网络附着存储***等可用的任何电子文档、网页或者内容汇集。
为了以下描述,将假设结合Q&A分析引擎实施说明性实施例的机制。Q&A分析引擎取得输入问题、分析它并且向返回指示对输入问题的最可能答案的结果。Q&A***提供用于搜索内容源、例如电子文档的大型集合的自动化机制并且关于输入问题分析它们以确定对问题的答案和关于答案对于回答输入问题有多么准确的置信度测量。
一个这样的Q&A***是从纽约阿芒克的国际商业机器(IMB)公司可获得的WatsonTM***。WatsonTM***是高级自然语言处理(NLP)、信息取回、知识表示和推理以及机器学习技术应用于开放范畴问题回答领域。在用于假设生成、规模证据收集、分析和计分的IBM的DeepQATM技术上构建WatsonTM***。DeepQATM取得输入问题、分析它、将问题分解成组成部分、基于分解的问题和答案源的主要搜索的结果生成一个或者多个假设、基于从证据源取回证据执行假设和证据计分、执行最终合并和排行以将对输入问题的答案与置信度测量一起输出。
各种美国专利申请公开文献描述也可以结合说明性实施例的机制使用的各种类型的问题和答案***。公开号为2011/0125734的美国专利申请公开一种用于基于数据全集生成问题和答案对的机制。***始于问题集合、然后分析内容集合以提取对那些问题的答案。公开号为2011/0066587的美国专利申请公开一种用于将分析的信息的报告转换成问题汇集并且从信息集合确定用于问题汇集的答案是否被答复或者驳倒。向更新的信息模型中并入结果数据。任何已知或者以后开发的问题和答案创建***可以与说明性实施例的机制使用而未脱离说明性实施例的精神实质和范围。
说明性实施例的机制可以作为在将由Q&A***或者其它分析引擎分析的电子文档中嵌入的或者与电子文档关联的表格结构内容的预处理器操作,该表格结构内容具有能够由分析引擎处理的内容的可标识格式。在Q&A***的情况下,可标识格式是句子结构格式。这一句子结构格式不是要求特定信息排序的严格格式而是灵活、无结构格式,因为Q&A***可以分析具有各种格式的句子并且提取句子的语法。在其它实施例中,格式可以具有更少灵活的结果并且可以要求可标识格式具有特定信息排序。
说明性实施例可以对与电子文档关联的表格结构内容操作以将表格结构内容转换成如下格式,分析引擎能够处理该格式以获得语法信息。说明性实施例处理表格结构内容以确定表格结构内容的结构、生成从表格结构内容提取的信息的表示、然后使用从表格结构内容提取的信息的表示以构造这一信息的语义表示,该语义表示具有能够由关联分析引擎处理的格式。
为了更清楚地理解说明性实施例的机制执行的操作,首先重要的是理解可以在电子文档中嵌入或者另外与电子文档关联的表格结构的一般结构和内容。图3是示出根据一个说明性实施例的表格结构的示例图,该示例图示出表格结构的要素,这些要素用于确定表格结构的语义。图3中所示的图图示示例表格结构的单元结构。应当理解这仅为示例并且其它表格结构可以具有说明性实施例的机制可标识的不同结构。
如图3中所示,表格结构300包括在图3中表示为框的多个单元。这些单元可以存储包括头标、脚注和信息内容的不同类型的信息。在图3中所示示例中,单元310-316是表格拐角单元,单元320是列头标单元,单元330是行头标单元,单元350是列脚注单元,并且单元360是行脚注单元。表格拐角单元310-316可以包括一个或者多个列头标/脚注单元和行头标/脚注单元。在图3中所示示例中,表格拐角单元310可以视为提供关于表格本身的头标信息的表格头标。其它表格拐角单元312-316也可以存储附加表格头标/脚注信息。表格结构300还包括一个或者多个表格标题370。
表格结构300中的每个水平行具有零个或者更多行头标单元330和零个或者更多行脚注单元360。表格结构300中的每个竖直列具有零个或者更多列头标单元320和零个或者更多列脚注单元350。表格结构300的正文(在表格头标310和表格脚注340以内)包含超单元380,这些超单元是有关单元的非重叠汇集。优选地,这些超单元380具有矩形形状,但是这不是必需的。这些超单元380可以包括表格内的一个或多个单元。类似地,表格结构300的其它部分、例如头标、脚注等可以类似地包括表格结构300的一个或者多个单元。
行头标330、行脚注360、列头标320和列脚注350的大小定义表格结构300的拐角中的适用于整个表格结构300的单元块。可选的一个或者多个表格标题370也适用于整个表格结构300。
表格结构300的大小和配置可以由与表格结构300关联的元数据标识或者可以通过分析单元的布置和在单元内包含的内容来自动标识。例如在创建表格结构300时,表格结构300的创建者可以指定表格结构300的哪些单元对应于列头标、列脚注、行头标和行脚注。另外,创建者可以规定表格结构300的正文内的超单元以单元数目计的大小。备选地,可以提供指示表格结构300的类型的信息、例如行数、列数,并且可以分析内容以确定表格结构300的哪些部分对应于头标/脚注而哪些部分对应于正文内容。如果未给定或者不能从表格结构300的分析中辨认超单元大小,则可以选择默认设置。
自动化分析可以例如涉及到寻找指示头标的文本内容、比如有别于具体词项的一般词项,例如“姓名”为一般、“史蒂夫”为“姓名”的具体实例。数字条目经常比头标/脚注更指示正文内容、因此可以将正文内容视为自动化分析的部分。在表格结构的外边界上的单元往往是头标/脚注,这有别于作为正文内容单元的内单元。作为又一示例,词项“总计”、“小计”等可以指示用于列/行的头标/脚注。分析可以在评估表格结构300的单元的许多不同特性以确定单元是否为头标、脚注或者正文内容、例如超单元的部分时考虑这些特性。可以使用任何用于标识表格结构300的部分的任何机制和/或逻辑而未脱离说明性实施例的精神实质和范围。
为了以下描述,将假设在与表格结构300关联的可以在创建表格结构300时或者在随后某个时点人工输入或者自动生成的元数据中指定表格结构300的结构和布置。此外,表格结构300的创建者或者对描述表格结构300的内容感兴趣的其他人可以提供模板语句,该模板语句指示可以用来代表表格结构300的内容的方式。例如在描绘的示例中,模板语句可以是类型“在年份$colhead(1,1)中的$rowhead(1,1)的成本是$cell(1,1)”,其中行头标是产品名称,列头标是年份,并且正文内容单元包括成本信息。这一模板语句可以用来在能够由关联分析引擎、例如NLP引擎、Q&A引擎等处理的格式中生成表格结构300中包含的信息的语义表示。
了解了表格结构300内的单元结构和布置,说明性实施例的机制为表格结构300的正文中的每个超单元380生成元组(有序值集合)。元组为从表格结构300收集的信息提供标准化格式,从而这一信息可以映射到表格的如模板定义的语义表示。通过生成元组,然后可以基于用来生成表格结构300的语义表示的特定模板格式化信息以用于不同类型的分析引擎或者用于不同目的。例如第一模板可以用来生成表格结构300的自然语言句子语义表示,并且第二模板可以用来生成代表表格结构300的SQL语句。两个模块可以使用相同元组以生成与模板对应的语义表示。另外,如图3中所示,超单元380、头标和脚注可以包括多个单元,并且元组根据每个超单元380组织这一信息。
图4是图示根据一个说明性实施例的元组的示例组织的示例图。图4中所示具体示例用于图3中的示例表格结构300,但是不应解释说明性实施例为限于对仅有图3中所示具体结构的表格结构300操作。
如图4中所示,存在用于表格300中的每个超单元380的单独元组,存在生成的单独元组400。因此,在图4中所示元组数据结构中,有9个单独元组,一个元组用于表格结构300的正文中的9个超单元380中的每个超单元。每个元组400包括用于在9个单独元组之中公共的表格标题370的条目。每个元组400包括对应表格头标部分410(对应于表格头标310)、行头标部分420(对应于行头标330)、列头标部分430(对应于列头标320)、超单元部分440(对应于超单元380)、列脚注部分450(对应于列脚注350)、行脚注部分460(对应于行脚注360)、第二表格头标部分470(对应于表格头标340),并且模板部分460指定元组将与之使用的一个或者多个模板或者模板的标识符。也可以为表格拐角部分提供附加部分412和416。
模板部分480为可选,并且可以在创建元组400时基于与表格关联的特定模板来填充。备选地,基于将用于对电子文档及其嵌入或者关联的表格结构300操作的分析引擎的特定模板可以动态填充模板部分480或者动态确定模板。元组400除了图4中所示信息之外还可以包含或者取代图4中所示信息的部分可以包含图4中未具体示出的其它专用信息、例如超单元行和列编号等而未脱离说明性实施例的精神实质和范围。
说明性实施例提供用于将表格结构300中的信息映射到图4的元组数据结构的元组400的逻辑。已经经由说明性实施例的映射逻辑生成元组400,说明性实施例的机制对模板操作以生成元组400中存储的信息的语义表示。也就是说,说明性实施例将用于表格结构300的模板应用于元组以生成用于每个元组的单独语义语句。模板的这样的应用包括用来自元组的对应部分的对应信息填充模板中的变量。结果是描述表格结构300中的内容和在内容之间的关系的语义语句集合。然后可以在表格结构300和/或表格结构300与之关联的电子文档中存储或者与表格结构300和/或表格结构300与之关联的电子文档关联存储这些语句。
单独模板可以应用于元组400以生成不同类型的分析引擎可使用的或者可用于不同目的的单独语义语句。因此,与表格结构300关联的语义语句可以包括用于每个元组400的多个语义语句,每个模板一个语义语句。
作为结果,在分析引擎处理具有关联表格结构300的电子文档时,分析引擎可以标识能够由分析引擎处理的与表格结构300关联的语义语句。分析引擎然后可以对这些语义语句执行它的正常分析操作、例如NLP操作、Q&A操作等以生成对应分析结果。
因此,说明性实施例提供用于处理与电子文档关联的表格结构以便生成在表格结构300中包含的信息之间的关系的语义表示。这些语义表示能够由NLP分析引擎、Q&A分析引擎等处理。因此,说明性实施例的机制允许先前不能由这些类型的分析引擎处理的表格结构转换成能够由分析引擎处理的语义表示。
如以上提到的那样,图3中所示表格结构300仅为能够由说明性实施例的机制处理的一个可能表格结构300的示例。说明性实施例不限于任何特定类型的表格结构300,只要能够通过分析表格结构300或者通过处理与表格结构300关联的元数据来标识表格结构300的布置和配置。
图5A-图5D图示可以用来实施说明性实施例的其它示例表格结构。图5A图示二维表格结构。图5B图示按行一维表格结构。图5C图示按列一维表格结构。图5D图示并排表格结构。图5A-5C中的表格结构是最常见表格结构而图5D更少常见、但是在重复数目的会计和财务实例中用来批准对价。说明性实施例能够使用上文先前描述的方法和机制来标识这些各种类型的表格结构并且为这些表格结构的正文中的超单元生成元组。
图6是根据一个说明性实施例的表格结构语法提取引擎的示例框图。可以在硬件、软件或者硬件和软件的任何组合中实施图6中所示单元。在一个说明性实施例中,可以实施图6的机制为一个或者多个硬件单元执行的软件指令。例如可以实施图6的单元为向一个或者多个存储器中加载的并且由一个或者多个处理器执行的软件指令。
如图6中所示,表格结构语法提取引擎600包括控制器610、接口620、表格结构标识引擎630、元组生成引擎640和语义表示引擎650。控制器610控制表格结构语法提取引擎600的总体操作并且调配其它单元620-650的操作。接口620提供如下通信接口,通过该通信接口可以接收表格结构信息并且可以输出表格结构信息的语义表示。接口620提供如下通信途径,表格结构语法提取引擎600可以通过该表格结构与表格结构语法提取引擎与之工作的一个或者多个分析引擎通信。
表格结构标识引擎630提供用于确定表格的结构的逻辑。这可以涉及到处理与表格关联的元数据,该元数据标识表格的结构或者分析表格以确定结构。可以在行头标、行脚注、列头标、列脚注、超单元等的大小方面指定结构。这一信息可以用来标识表格中的各种单元以确定哪些单元对应于表格的不同部分、例如行头标/脚注、列头标/脚注、在表格的正文中的超单元等。
元组生成引擎640取得如表格结构标识引擎630确定的用于表格的结构信息并且使用这一结构信息以将表格的内容映射到元组,表格中的每个超单元一个元组,这些元组可以被存储用于比如如下文描述的那样由语义表示引擎650以后取回。这些元组实质上将来自表格的内容映射到可以用来生成表格的语义表示的格式,该语义表示包括用于每个超单元的单独语义语句。
向语义表示引擎650提供元组生成引擎640生成的元组。语义表示引擎650将一个或者多个语义表示模板应用于元组生成引擎640生成的元组。如以上提到的那样,这些模板可以在生成它们时与元组关联或者可以在以后时间被动态应用。例如与向表格结构语法提取引擎600输入的表格信息一起也可以输入模板用于由语义表示引擎650应用。语义表示引擎650生成的结果是定义在输入表格中的内容之间的关系的语义语句集合,这些语义语句被格式用于由关联分析引擎、比如NLP引擎、Q&A引擎等处理。可以存储这些语义语句作为与表格结构关联的电子文档、表格结构的一部分或者作为链接到表格结构和/或电子文档的单独数据结构。这些语义语句的关联允许分析引擎从表格提取语义关系信息以对表格结构执行其分析操作。这些语义语句可以是自然语言句子语句、SQL语句等。
图7是概括了根据一个说明性实施例的示例操作的流程图,该示例操作用于提取表格结构语义信息并且制定表格结构的语义表示。图7中概括的操作可以例如由图6中的表格结构语法提取引擎600实施。
如图7中所示,操作通过接收表格结构信息中作为输入来开始(步骤710)。这可以例如响应于分析引擎在分析电子文档时遇到表格结构、作为电子文档在分析引擎执行操作之前的预处理步骤的一部分、响应于向电子文档中***或者作为电子文档的一部分而创建表格或者许多其它可能事件中的任何其它可能事件来完成,这些其它可能事件适合于启动生成电子文档中的表格结构的语义表示。
响应于接收表格结构信息,标识表格的结构(步骤720)。这可以例如包括确定头标、脚注、超单元等的大小。确定表格电结构可以包括分析与表格关联的并且作为表格结构的一部分而提供的元数据或者执行表格的内容的分析以标识与头标、脚注、正文单元等对应的诸部分。在确定表格的结构之后,使用映射逻辑以将表格的内容映射到用于每个超单元的元组来为表格的正文中的超单元中的每个超单元生成元组(步骤730)。然后使用模板来处理元组以生成与元组对应的语义语句,从而每个元组生成定义在与元组对应的超单元的内容之间的关系的一个或者多个语义语句(步骤740)。然后与表格结构关联地存储语义内容(步骤750)用于由分析引擎以后使用(步骤760)。操作然后终止。
因此,如以上所言,说明性实施例提供用于将表格结构转换成能够由分析引擎、比如NLP分析引擎、Q&A分析引擎等处理的机制。转换包括确定表格的结构、生成表格中的每个超单元的元组表示并且将一个或者多个模板应用于元组以生成代表在表格中的超单元的内容之间的关系的语义语句。
如以上所言,应当理解说明性实施例可以采用全硬件实施例、全软件实施例或者包含硬件和软件单元二者的实施例的形式。在一个说明性实施例中,在包括但不限于固件、驻留软件、伪代码等的软件或者程序代码中实施说明性实施例的机制。
适合于存储和/或执行程序代码的数据处理***将包括直接或者通过***总线间接耦合到存储器单元的至少一个处理器。存储器单元可以包括在实际执行程序代码期间运用的本地存储器、体存储装置和高速缓存存储器,这些高速缓存存储器提供至少一些程序代码的暂时存储以便减少必须在执行期间从体存储装置取回代码的次数。
输入/输出或者I/O设备(包括但不限于键盘、显示器、指示设备等)可以直接或者通过居间I/O控制器间接耦合到***。网络适配器也可以耦合到***以使数据处理***能够变成通过居间专用或者公用网络耦合到其它数据处理***或者远程打印机或者存储设备。调制器解调器、线缆调制器解调器和以太网卡仅为当前可用类型的网络适配器中的少数类型。
已经出于示例和描述的目的而呈现本发明的描述而并非旨在于穷举或者限于公开形式的本发明。本领域普通技术人员将清楚许多修改和变化。选择和描述实施例以便最好地说明本发明的原理、实际应用并且使本领域其他普通技术人员能够对于各种实施例理解本发明,这些实施例有如适合于设想的特定用途的各种修改。

Claims (16)

1.一种在数据处理***中用于提取在与电子文档关联的表格数据结构中的表格内容之间的语义关系的方法,所述方法包括:
由所述数据处理***确定所述表格数据结构内的单元配置;
由所述数据处理***基于确定的所述单元配置来标识所述表格数据结构内的一个或者多个超单元;
对于所述一个或者多个超单元中的每个超单元,将与所述超单元对应的表格数据转换成用于所述超单元的语义关系语句,其中所述语义关系语句标识在与所述超单元对应的所述表格数据的部分之间的一个或者多个关系;以及
由所述数据处理***将用于所述超单元中的每个超单元的所述语义关系语句与所述表格数据结构关联地存储。
2.根据权利要求1所述的方法,其中将与所述超单元对应的表格数据转换成语义关系语句包括:对于每个超单元,
由所述数据处理***将所述表格数据结构的、与所述超单元关联的内容映射到具有定义的格式的元组数据结构;以及
基于用于所述超单元的所述元组数据结构来生成用于所述超单元的语义关系语句。
3.根据权利要求2所述的方法,其中基于用于所述超单元的所述元组数据结构来生成用于所述超单元的所述语义关系语句包括将语义关系语句模板应用于所述元组数据结构以生成用于所述超单元的语义关系语句。
4.根据权利要求1所述的方法,还包括:
使用与所述表格数据结构关联的语义关系语句来执行用于分析所述电子文档的分析操作。
5.根据权利要求4所述的方法,其中所述分析操作包括对所述电子文档的内容执行的自然语言处理操作或者问答创建操作中的至少一个操作,其中所述电子文档的所述内容包括所述表格数据结构。
6.根据权利要求1所述的方法,其中所述语义关系语句包括被配置用于由自然语言处理分析引擎解析的自然语言句子结构。
7.根据权利要求1所述的方法,其中所述语义关系语句包括结构化查询语言(SQL)语句、资源描述框架(RDF)语义三元组或者N3语义三元组中的至少一项。
8.根据权利要求1所述的方法,其中确定所述表格数据结构内的单元配置包括取回与所述表格数据结构关联的元数据,所述元数据标识所述表格数据结构的各部分的大小和所述表格数据结构的各部分的配置。
9.根据权利要求1所述的方法,其中确定所述表格数据结构内的单元配置包括对所述表格数据结构的所述内容执行自动分析以标识所述表格数据结构的、与所述表格数据结构的头标、脚注和超单元对应的部分。
10.一种装置,包括:
处理器;以及
耦合到所述处理器的存储器,其中所述存储器包括指令,所述指令在由所述处理器执行时使所述处理器:
确定表格数据结构内的单元配置;
基于确定的所述单元配置来标识所述表格数据结构内的一个或者多个超单元;
对于所述一个或者多个超单元中的每个超单元,将与所述超单元对应的表格数据转换成用于所述超单元的语义关系语句,其中所述语义关系语句标识在与所述超单元对应的所述表格数据的部分之间的一个或者多个关系;以及
将用于所述超单元中的每个超单元的所述语义关系语句与所述表格数据结构关联地存储。
11.根据权利要求10所述的装置,其中所述指令使所述处理器至少通过以下操作将与所述超单元对应的表格数据转换成语义关系语句:对于每个超单元,
将所述表格数据结构的、与所述超单元关联的内容映射到具有定义的格式的元组数据结构;以及
基于用于所述超单元的所述元组数据结构来生成用于所述超单元的语义关系语句。
12.根据权利要求11所述的方法,其中所述指令使所述处理器至少通过以下操作来基于用于所述超单元的所述元组数据结构来生成用于所述超单元的所述语义关系语句:将语义关系语句模板应用于所述元组数据结构以生成用于所述超单元的语义关系语句。
13.根据权利要求10所述的装置,其中所述指令还使所述处理器:
使用与所述表格数据结构关联的语义关系语句来执行用于分析所述电子文档的分析操作。
14.根据权利要求13所述的方法,其中所述分析操作包括对所述电子文档的内容执行的自然语言处理操作或者问答创建操作中的至少一个操作,其中所述电子文档的所述内容包括所述表格数据结构。
15.根据权利要求10所述的装置,其中所述语义关系语句包括被配置用于由自然语言处理分析引擎解析的自然语言句子结构。
16.根据权利要求10所述的装置,其中所述指令使所述处理器至少通过以下操作来确定所述表格数据结构内的单元配置:取回与所述表格数据结构关联的元数据,所述元数据标识所述表格数据结构的各部分的大小和所述表格数据结构的各部分的配置。
CN201310495714.XA 2012-10-30 2013-10-21 从电子文档中的表格结构提取语义关系 Pending CN103793372A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/664,144 2012-10-30
US13/664,144 US8914419B2 (en) 2012-10-30 2012-10-30 Extracting semantic relationships from table structures in electronic documents

Publications (1)

Publication Number Publication Date
CN103793372A true CN103793372A (zh) 2014-05-14

Family

ID=50548409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310495714.XA Pending CN103793372A (zh) 2012-10-30 2013-10-21 从电子文档中的表格结构提取语义关系

Country Status (3)

Country Link
US (1) US8914419B2 (zh)
CN (1) CN103793372A (zh)
TW (1) TWI563400B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933162A (zh) * 2015-06-26 2015-09-23 河海大学 一种从元数据标注的csv数据到rdf数据的转换方法
CN105989189A (zh) * 2015-03-16 2016-10-05 富士通株式会社 关系推定方法、关系推定程序以及信息处理装置
CN107771334A (zh) * 2015-06-18 2018-03-06 微软技术许可有限责任公司 自动的数据库模式注释
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN109241514A (zh) * 2018-09-10 2019-01-18 深圳市泰洲科技有限公司 数据自动导入方法、装置、计算机设备及存储介质
CN112270165A (zh) * 2020-10-19 2021-01-26 中译语通科技股份有限公司 一种表格的处理方法、装置、介质和电子设备

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10289653B2 (en) 2013-03-15 2019-05-14 International Business Machines Corporation Adapting tabular data for narration
US9164977B2 (en) 2013-06-24 2015-10-20 International Business Machines Corporation Error correction in tables using discovered functional dependencies
US9600461B2 (en) 2013-07-01 2017-03-21 International Business Machines Corporation Discovering relationships in tabular data
US9495347B2 (en) * 2013-07-16 2016-11-15 Recommind, Inc. Systems and methods for extracting table information from documents
US9607039B2 (en) * 2013-07-18 2017-03-28 International Business Machines Corporation Subject-matter analysis of tabular data
US9830314B2 (en) 2013-11-18 2017-11-28 International Business Machines Corporation Error correction in tables using a question and answer system
US9542928B2 (en) * 2014-03-25 2017-01-10 Microsoft Technology Licensing, Llc Generating natural language outputs
US10318625B2 (en) 2014-05-13 2019-06-11 International Business Machines Corporation Table narration using narration templates
US9977780B2 (en) 2014-06-13 2018-05-22 International Business Machines Corporation Generating language sections from tabular data
US9514118B2 (en) * 2014-06-18 2016-12-06 Yokogawa Electric Corporation Method, system and computer program for generating electronic checklists
US20160019192A1 (en) * 2014-07-21 2016-01-21 General Electric Company System and method to extract structured semantic model from document
US9720962B2 (en) 2014-08-19 2017-08-01 International Business Machines Corporation Answering superlative questions with a question and answer system
US10191946B2 (en) 2015-03-11 2019-01-29 International Business Machines Corporation Answering natural language table queries through semantic table representation
US10685173B2 (en) * 2015-08-17 2020-06-16 International Business Machines Corporation Formatting tables with complex patterns
US10095740B2 (en) 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
US10078629B2 (en) 2015-10-22 2018-09-18 International Business Machines Corporation Tabular data compilation
US20170116194A1 (en) 2015-10-23 2017-04-27 International Business Machines Corporation Ingestion planning for complex tables
US10650050B2 (en) 2016-12-06 2020-05-12 Microsoft Technology Licensing, Llc Synthesizing mapping relationships using table corpus
US10013441B1 (en) * 2017-02-13 2018-07-03 Sas Institute Inc. Distributed data set indexing
US11475488B2 (en) 2017-09-11 2022-10-18 Accenture Global Solutions Limited Dynamic scripts for tele-agents
US10997228B2 (en) 2017-10-26 2021-05-04 International Business Machines Corporation Comparing tables with semantic vectors
US11853930B2 (en) 2017-12-15 2023-12-26 Accenture Global Solutions Limited Dynamic lead generation
US11650970B2 (en) 2018-03-09 2023-05-16 International Business Machines Corporation Extracting structure and semantics from tabular data
US10762142B2 (en) 2018-03-16 2020-09-01 Open Text Holdings, Inc. User-defined automated document feature extraction and optimization
US11048762B2 (en) 2018-03-16 2021-06-29 Open Text Holdings, Inc. User-defined automated document feature modeling, extraction and optimization
US10878195B2 (en) 2018-05-03 2020-12-29 Microsoft Technology Licensing, Llc Automated extraction of unstructured tables and semantic information from arbitrary documents
US11200413B2 (en) 2018-07-31 2021-12-14 International Business Machines Corporation Table recognition in portable document format documents
US11443106B2 (en) 2018-09-20 2022-09-13 International Business Machines Corporation Intelligent normalization and de-normalization of tables for multiple processing scenarios
US10831798B2 (en) 2018-09-20 2020-11-10 International Business Machines Corporation System for extracting header labels for header cells in tables having complex header structures
US11514258B2 (en) 2018-09-20 2022-11-29 International Business Machines Corporation Table header detection using global machine learning features from orthogonal rows and columns
US10776573B2 (en) * 2018-09-20 2020-09-15 International Business Machines Corporation System for associating data cells with headers in tables having complex header structures
US11762890B2 (en) 2018-09-28 2023-09-19 International Business Machines Corporation Framework for analyzing table data by question answering systems
US11468882B2 (en) * 2018-10-09 2022-10-11 Accenture Global Solutions Limited Semantic call notes
US10923114B2 (en) 2018-10-10 2021-02-16 N3, Llc Semantic jargon
US12001972B2 (en) 2018-10-31 2024-06-04 Accenture Global Solutions Limited Semantic inferencing in customer relationship management
US11132695B2 (en) 2018-11-07 2021-09-28 N3, Llc Semantic CRM mobile communications sessions
US10972608B2 (en) 2018-11-08 2021-04-06 N3, Llc Asynchronous multi-dimensional platform for customer and tele-agent communications
US10742813B2 (en) 2018-11-08 2020-08-11 N3, Llc Semantic artificial intelligence agent
US11610277B2 (en) 2019-01-25 2023-03-21 Open Text Holdings, Inc. Seamless electronic discovery system with an enterprise data portal
US10546135B1 (en) 2019-03-06 2020-01-28 SecurityScorecard, Inc. Inquiry response mapping for determining a cybersecurity risk level of an entity
WO2020220283A1 (en) * 2019-04-30 2020-11-05 Microsoft Technology Licensing, Llc Document auto-completion
CN110134957B (zh) * 2019-05-14 2023-06-13 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及***
US11380116B2 (en) 2019-10-22 2022-07-05 International Business Machines Corporation Automatic delineation and extraction of tabular data using machine learning
EP4062313A1 (en) * 2019-11-18 2022-09-28 Monday.com Ltd. Collaborative networking systems, methods, and devices
US11443264B2 (en) 2020-01-29 2022-09-13 Accenture Global Solutions Limited Agnostic augmentation of a customer relationship management application
US11481785B2 (en) 2020-04-24 2022-10-25 Accenture Global Solutions Limited Agnostic customer relationship management with browser overlay and campaign management portal
US11392960B2 (en) 2020-04-24 2022-07-19 Accenture Global Solutions Limited Agnostic customer relationship management with agent hub and browser overlay
JP2022035594A (ja) * 2020-08-21 2022-03-04 株式会社日立製作所 表構造認識装置及び表構造認識方法
US11507903B2 (en) 2020-10-01 2022-11-22 Accenture Global Solutions Limited Dynamic formation of inside sales team or expert support team
US11688193B2 (en) 2020-11-13 2023-06-27 International Business Machines Corporation Interactive structure annotation with artificial intelligence
US20220171922A1 (en) * 2020-12-01 2022-06-02 Jpmorgan Chase Bank, N.A. Method and system for conditioned generation of descriptive commentary for quantitative data
US11797586B2 (en) 2021-01-19 2023-10-24 Accenture Global Solutions Limited Product presentation for customer relationship management
US11816677B2 (en) 2021-05-03 2023-11-14 Accenture Global Solutions Limited Call preparation engine for customer relationship management
CN113656592B (zh) * 2021-07-22 2022-09-27 北京百度网讯科技有限公司 基于知识图谱的数据处理方法、装置、电子设备和介质
CN113868260A (zh) * 2021-10-09 2021-12-31 北京字跳网络技术有限公司 数据处理方法、装置和电子设备
US12026525B2 (en) 2021-11-05 2024-07-02 Accenture Global Solutions Limited Dynamic dashboard administration

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171999A1 (en) * 2007-12-27 2009-07-02 Cloudscale Inc. System and Methodology for Parallel Stream Processing
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
CN101887413A (zh) * 2009-05-14 2010-11-17 北大方正集团有限公司 版式表格的结构处理方法和***

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4688195A (en) 1983-01-28 1987-08-18 Texas Instruments Incorporated Natural-language interface generating system
JP2926066B2 (ja) 1992-05-29 1999-07-28 富士ゼロックス株式会社 表認識装置
GB2344265B (en) 1997-11-20 2003-07-16 Xacct Technologies Inc Network accounting and billing system and method
US6161103A (en) * 1998-05-06 2000-12-12 Epiphany, Inc. Method and apparatus for creating aggregates for use in a datamart
US6769096B1 (en) 1998-06-24 2004-07-27 Microsoft Corporation System and method for updating a table of contents in a frameset
US6452467B1 (en) 1999-04-01 2002-09-17 Mcewan Technologies, Llc Material level sensor having a wire-horn launcher
JP3690730B2 (ja) 2000-10-24 2005-08-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 構造回復システム、構文解析システム、変換システム、コンピュータ装置、構文解析方法、及び記憶媒体
US7620665B1 (en) 2000-11-21 2009-11-17 International Business Machines Corporation Method and system for a generic metadata-based mechanism to migrate relational data between databases
US7054871B2 (en) * 2000-12-11 2006-05-30 Lucent Technologies Inc. Method for identifying and using table structures
US6904428B2 (en) 2001-04-18 2005-06-07 Illinois Institute Of Technology Intranet mediator
US7251781B2 (en) 2001-07-31 2007-07-31 Invention Machine Corporation Computer based summarization of natural language documents
JP2004062446A (ja) 2002-07-26 2004-02-26 Ibm Japan Ltd 情報収集システム、アプリケーションサーバ、情報収集方法、およびプログラム
US20040064447A1 (en) 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
US7143026B2 (en) 2002-12-12 2006-11-28 International Business Machines Corporation Generating rules to convert HTML tables to prose
US7792829B2 (en) 2005-01-28 2010-09-07 Microsoft Corporation Table querying
US20070011183A1 (en) 2005-07-05 2007-01-11 Justin Langseth Analysis and transformation tools for structured and unstructured data
US7672831B2 (en) 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US8024653B2 (en) 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US8036889B2 (en) 2006-02-27 2011-10-11 Nuance Communications, Inc. Systems and methods for filtering dictated and non-dictated sections of documents
US7788580B1 (en) 2006-03-28 2010-08-31 Amazon Technologies, Inc. Processing digital images including headers and footers into reflow content
KR100918847B1 (ko) 2007-10-15 2009-09-28 한국전자통신연구원 온톨로지 인스턴스 자동 생성 장치 및 방법
JP4476318B2 (ja) 2007-10-31 2010-06-09 富士通株式会社 論理構造認識プログラム、論理構造認識装置、および論理構造認識方法
US7792823B2 (en) 2008-01-15 2010-09-07 International Business Machines Corporation Maintained symbol table only index
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
WO2009155281A1 (en) * 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8255789B2 (en) * 2008-09-30 2012-08-28 Apple Inc. Providing spreadsheet features
US8959481B2 (en) 2009-04-30 2015-02-17 International Business Machines Corporation Determining system level dependencies
US8037108B1 (en) 2009-07-22 2011-10-11 Adobe Systems Incorporated Conversion of relational databases into triplestores
US8280838B2 (en) 2009-09-17 2012-10-02 International Business Machines Corporation Evidence evaluation system and method based on question answering
US20110125734A1 (en) 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US20110126197A1 (en) 2009-11-25 2011-05-26 Novell, Inc. System and method for controlling cloud and virtualized data centers in an intelligent workload management system
US20120011115A1 (en) 2010-07-09 2012-01-12 Jayant Madhavan Table search using recovered semantic information
CN103229168B (zh) 2010-09-28 2016-10-19 国际商业机器公司 在问答期间在多个候选答案之间证据扩散的方法和***
WO2012047541A1 (en) 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
US9592050B2 (en) 2010-09-30 2017-03-14 Ethicon Endo-Surgery, Llc End effector comprising a distal tissue abutment member
US8442988B2 (en) * 2010-11-04 2013-05-14 International Business Machines Corporation Adaptive cell-specific dictionaries for frequency-partitioned multi-dimensional data
US8630989B2 (en) 2011-05-27 2014-01-14 International Business Machines Corporation Systems and methods for information extraction using contextual pattern discovery
US8874540B2 (en) 2011-09-07 2014-10-28 Xerox Corporation Method for semantic classification of numeric data sets
US8601030B2 (en) 2011-09-09 2013-12-03 International Business Machines Corporation Method for a natural language question-answering system to complement decision-support in a real-time command center
US8909648B2 (en) 2012-01-18 2014-12-09 Technion Research & Development Foundation Limited Methods and systems of supervised learning of semantic relatedness

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171999A1 (en) * 2007-12-27 2009-07-02 Cloudscale Inc. System and Methodology for Parallel Stream Processing
CN101887413A (zh) * 2009-05-14 2010-11-17 北大方正集团有限公司 版式表格的结构处理方法和***
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989189A (zh) * 2015-03-16 2016-10-05 富士通株式会社 关系推定方法、关系推定程序以及信息处理装置
CN107771334A (zh) * 2015-06-18 2018-03-06 微软技术许可有限责任公司 自动的数据库模式注释
CN104933162A (zh) * 2015-06-26 2015-09-23 河海大学 一种从元数据标注的csv数据到rdf数据的转换方法
CN104933162B (zh) * 2015-06-26 2018-03-09 河海大学 一种从元数据标注的csv数据到rdf数据的转换方法
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN109117479B (zh) * 2018-08-13 2022-07-22 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN109241514A (zh) * 2018-09-10 2019-01-18 深圳市泰洲科技有限公司 数据自动导入方法、装置、计算机设备及存储介质
CN112270165A (zh) * 2020-10-19 2021-01-26 中译语通科技股份有限公司 一种表格的处理方法、装置、介质和电子设备

Also Published As

Publication number Publication date
US8914419B2 (en) 2014-12-16
TWI563400B (en) 2016-12-21
US20140122535A1 (en) 2014-05-01
TW201419014A (zh) 2014-05-16

Similar Documents

Publication Publication Date Title
CN103793372A (zh) 从电子文档中的表格结构提取语义关系
CN107766371B (zh) 一种文本信息分类方法及其装置
WO2021042521A1 (zh) 一种合同自动生成方法、计算机设备及计算机非易失性存储介质
AU2009238294B2 (en) Data transformation based on a technical design document
JP2023506362A (ja) 文書監査方法、装置、システム、デバイス及び記憶媒体
CN108595449A (zh) 调度自动化***知识图谱的构建与应用方法
JP2018097846A (ja) Api学習
US20050120009A1 (en) System, method and computer program application for transforming unstructured text
US11601453B2 (en) Methods and systems for establishing semantic equivalence in access sequences using sentence embeddings
US20220164521A1 (en) Systems and methods for facilitating data object extraction from unstructured documents
Haddaway et al. On the use of computer‐assistance to facilitate systematic mapping
CN115186015B (zh) 一种网络安全知识图谱构建方法及***
CN105389338B (zh) 一种采购中标数据的解析方法
CN116383193A (zh) 一种数据管理方法、装置、电子设备和存储介质
Cruz et al. Semantic extraction of geographic data from web tables for big data integration
CN116415562B (zh) 用于解析金融数据的方法、设备和介质
Zhang et al. Towards an interoperable online volunteered geographic information system for disaster response
CN109062913B (zh) 国际化资源智能获取方法、存储介质
CN110675172A (zh) 一种食品溯源数据挖掘方法及***
CN114676694A (zh) 业务模型的生成方法、装置、设备、介质和程序产品
US20210295036A1 (en) Systematic language to enable natural language processing on technical diagrams
CN113539518A (zh) 基于rpa和ai的药品数据处理方法、装置及电子设备
CN113239670A (zh) 一种业务模板上传的方法、装置、计算机设备及存储介质
Lou et al. Semantic change analysis of Korean verbs based on massive culture corpus data
Minggao et al. Research on the Application of LLM in Power Finance Middle Platform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140514