CN112384907A - 与文本挖掘集成的规范编辑*** - Google Patents

与文本挖掘集成的规范编辑*** Download PDF

Info

Publication number
CN112384907A
CN112384907A CN201980046306.1A CN201980046306A CN112384907A CN 112384907 A CN112384907 A CN 112384907A CN 201980046306 A CN201980046306 A CN 201980046306A CN 112384907 A CN112384907 A CN 112384907A
Authority
CN
China
Prior art keywords
bin
dictionary
manager
bins
annotations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980046306.1A
Other languages
English (en)
Other versions
CN112384907B (zh
Inventor
福田进
渡边健太
石川隼辅
福田隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN112384907A publication Critical patent/CN112384907A/zh
Application granted granted Critical
Publication of CN112384907B publication Critical patent/CN112384907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

实施例涉及用于动态面元字典管理的***、计算机程序产品和方法。当一个或多个注释被应用于文档集合时,电子文本和相关联的面元被标识。附加面元和面元值被标识并选择性地应用于知识库。由面元和相关联的面元值组成的字典从选择性应用构建。将字典应用于知识库标识并返回文档目标集合。因而,面元挖掘和字典构造被动态地应用于知识库。

Description

与文本挖掘集成的规范编辑***
背景技术
本实施例涉及对文档集合进行文本挖掘。更具体地,实施例涉及将字典管理与相关联的文本挖掘***集成。
文本挖掘是用于在不必读取相关联文档的全部内容的情况下理解大量非结构化文本数据的技术。更具体地,文本挖掘是分析文本材料的集合以便捕捉关键概念和主题并揭示隐藏关系和趋势而不需要由相关联的作者用来表达那些概念的精确单词或词语的知识的过程。文本挖掘标识数据中的概念、模式、主题、关键字和其他属性。
文本挖掘提取语言面元(facet),其是表示文档的特征的单词和短语的集合。面元对应于信息元素的属性。面元是文档的重要方面;面元是从已经结构化的元数据或从从文本内容中提取的概念导出的。例如,面元可包括人、地点、组织、情感分析等。通常通过使用实体提取技术分析项目的文本或从数据库中的预先存在的字段(例如作者、描述符、语言和格式)分析项目文本来导出面元。在内容分析收集中,选择面元来探索经分析的内容并发现随时间推移数据的模式、趋势和偏差。确定哪些面元被显示以及对每个面元的贡献是成功的内容挖掘的关键设计任务。
用于文本挖掘的常规技术利用外部编辑器来管理面元以及将面元应用到与文本挖掘相关联的字典。这些技术具有局限性,因为用于添加在文本挖掘过程中发现的词的过程需要重建相关联的索引以检查所添加的词是否与文本挖掘很好地起作用。
发明内容
本文中描述的实施例包括用于面元字典管理的***、计算机程序产品和方法。在一个方面中,一种计算机***具备与存储器通信的处理单元和可操作地耦合到所述处理单元的功能单元。功能单元包括支持文本挖掘和面元字典构建的工具。所述工具包括但不限于文档、文本、面元和字典管理器。文档管理器将注释与文本挖掘集成,并将注释应用于知识库。文本管理器从相关联的文档集合提取元素,所提取的与应用的注释相关的元素选择所提取的元素中的一个或多个,将所选择的元素指定为面元,并且选择性地向面元添加面元值。面元管理器动态地执行添加的面元值的统计分析。字典管理器用注释、面元和面元值构造字典,并将字典应用于文档集合。文档目标列表从字典应用返回到文档集合。
在另一方面中,提供一种计算机程序产品以支持文本挖掘。该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有被配置成由处理单元执行的具体化的程序代码。提供程序代码以将注释与文本挖掘集成,并且将注释应用于知识库。此外,提供程序代码以从相关联的文档集合中提取元素,所提取的元素与所应用的注释有关。程序代码选择一个或多个所提取的元素,将所选择的元素指定为面元,并且将面元值选择性地添加到面元。还提供程序代码以动态地执行对所添加的面元值的统计分析、用注释、面元和面元值构造字典、以及将字典应用于文档集合。文档的目标列表从字典应用返回到文档集合。
在又另一方面,提供了一种用于对文档集合进行文本挖掘和动态面元以及面元值管理和应用的方法。注释与文本挖掘集成,包括将注释应用于知识库。提取来自相关联的文档集合的元素,其中所提取的元素与所应用的注释有关。选择所提取的元素中的一个或多个,将其指定为面元,并且将面元值选择性地添加到面元。动态地执行对所添加的面元值的统计分析,并且构建具有注释、面元和面元值的字典并且将该字典应用于文档集合。文档目标列表从字典应用返回到文档集合。
在进一步方面,提供可操作地耦合至存储器的处理单元,并且提供与该处理单元通信的功能单元。功能单元包括用于支持文本挖掘和动态字典构建的工具。所述工具包括文档和文本管理器。文档管理器将注释应用于知识库,基于所应用的注释从该知识库返回第一文档集合。文本管理器识别第一集合中的一个或多个面元,所识别的一个或多个面元在语言上与所应用的注释相关。对于每个识别的面元,文本管理器从第一集合中提取在语言上相关的词语,选择词语,将所选择的词语指定为面元值,将面元值临时分配给面元,在统计上分析语言关系的强度,并且基于该分析将面元值选择性地添加到面元。根据存储所识别的面元和选择性地添加的面元值来创建字典。
在更进一步的方面,提供了一种用于支持文本挖掘和动态字典构建的方法。将注释应用于知识库,并且返回基于所应用的注释的文档的第一集合。识别在语言上与所应用的注释相关的第一集合中的一个或多个面元。对于每个所识别的面元,从所返回的第一文档集合中提取两个或更多个词,其中每个所提取的词在语言上与第一集合中的所识别的面元相关联。从所提取的两个或更多个词中的至少一个词被选择并被指定为面元值,并被临时分配给面元。实时地,对指定面元值与标识面元的语言关系的强度进行统计分析。响应于统计分析,将面元值选择性地添加到面元。创建存储所识别的面元和选择性地添加的面元值的字典。
通过结合附图对当前优选实施例的以下详细描述,这些和其他特征和优点将变得显而易见。
附图说明
本文中引用的附图形成说明书的一部分。在附图中示出的特征旨在仅说明一些实施例,而不是所有实施例,除非另有明确指示:
图1描绘了示出支持其中的动态面元管理的文本挖掘***和工具的框图。
图2描绘了示出与面元编辑集成的文本挖掘的过程的流程图。
图3描绘了示出用于利用面元值建议的面元编辑的过程的流程图。
图4描绘了示出用于建议新面元的过程的流程图(例如,针对字典的单词建议)。
图5描绘了示出用于实现以上关于图1-4描述的***和过程的基于云的支持***的计算机***/服务器的示例的框图。
图6描绘了示出云计算机环境的框图。
图7描绘了示出由云计算环境提供的一组功能抽象模型层的框图。
具体实施方式
将容易理解的是,如在本文中的图中一般地描述和示出的本实施例的部件可以以各种各样的不同配置布置和设计。由此,附图中呈现的设备、***和方法的实施例的以下详细描述不旨在限制所要求保护的实施例的范围,而仅表示所选实施例。
贯穿本说明书对“选择实施例”、“一个实施例”或“实施例”的引用意味着结合该实施例所描述的具体特征、结构或特性包括在本实施例的至少一个实施例中。因此,贯穿本说明书在各处出现的短语“选择实施例”、“在一个实施例中”或“在实施例中”不一定是指同一实施例。
通过参考附图,可以最好地理解所示出的实施例,其中,贯穿全文,相同的部件由相同的数字指定。以下描述仅旨在作为举例,并且简单地展示了与本文所要求保护的实施例一致的设备、***和过程的某些所选实施例。
文本挖掘***具有两种类型的应用,包括文本挖掘应用和字典编辑器应用。文本挖掘应用支持对文档子集的查询,并且返回文档内容和对与每个面元相关联的数据的统计分析。字典编辑器应用支持关于其内容的创建、编辑和删除的面元管理。应当理解,定义面元及其值对于文本挖掘***中的有效分析结果是至关重要的。如以下所示出和描述的,文本挖掘与动态面元编辑集成。更具体地,文本挖掘工具和字典管理工具被集成以支持对面元中存在的词的近似值的计算。该计算返回分析结果,包括但不限于统计信息,例如频率和相关性。频率针对包含特定面元值的文档的数量。相关是面元值与被与集合中的其他文档一起由当前查询选择的文档集合相关的强度的量度。在不重新索引字典的情况下返回分析结果。
在面元内,各个值被称为可能来自不同源的面元值。例如,在数据库领域中,来自数据中的字段值的面元值被称为面元值。应当理解,面元值是变化的。例如,对于要标识颜色的面元,这些值可以是特定颜色,例如。红色、蓝色等。在一个实施例中,面元可应用于自然语言处理工具以提取面元值。在另一示例中,面元可以是被实现为两个或更多个连续名词的模式的名词序列面元。应当理解,面元和面元值存在变化,其中所述值取决于语料库或与语料库相关联。
每个面元值是包含关于存储在面元以及可能的其他面元内的值的信息的结构。参见图1,提供了框图(100)以示出支持其中的动态面元管理的文本挖掘***和工具。如图所示,提供跨连接(102)和(104)与计算机网络(105)通信的服务器(110)。若干设备还可以与网络(105)通信,包括但不限于手持式计算机、移动电话(180)、平板计算机(184)、膝上型计算机(186)和个人计算机(188)。***还可以包括更大规模的设备,诸如具有单独的非易失性数据存储器(182a)的大型计算机(182)或具有单独的非易失性数据存储器(190a)的服务器(190)。利用服务器(110),处理单元(112)被示出为跨总线(114)与存储器(116)通信。功能单元(140)被示出为与处理单元通信,并且包括支持文本挖掘和面元管理的工具。
如图所示,服务器(110)与基于文本的文档或文档的知识库(120)通信。知识库(120)用作语料库,并且在一个实施例中,可以由多个语料库组成,包括但不限于书面文本的集合,并且可以是基于文本的集合的网络。可替代地,知识库(120)可用作单个语料库。知识库(120)被示为在操作上跨网络(105)耦合到服务器(110)。在一个实施例中,知识库(120)可被存储在共享数据存储(诸如云共享资源)上。类似地,在一个实施例中,知识库(120)可在本地耦合到服务器(110)。在本文所示的示例中,知识库(120)包括跨网络(105)可操作地耦合至服务器(110)的共享资源。更具体地,知识库(120)被示为具有在本文中被示为D0(122)、D1(124)和D2(126)的数据资源。在一个实施例中,每个数据资源可以是服务器(110)或操作地耦合到知识库(120)的任何计算设备可访问的文档的集合。
关于文本和文本挖掘,注释在本领域中被理解为添加到文本的解释或评论的注释。在本领域中已知注释与文本相关联。注释的示例包括但不限于语言元素,诸如语音和/或模式的部分。所示的与功能单元(140)相关联的工具将注释与文本挖掘***和文本挖掘支持集成。工具包括但不限于文档管理器(142)、文本管理器(144)、面元管理器(146)和字典管理器(148)。文档管理器(142)用于将注释与文本挖掘集成。更具体地,文档管理器(142)将注释应用于知识库(120),并且通过文本管理器(144)、面元管理器(146)和字典管理器(148)的支持,从知识库(120)返回第一文档或第一文档集合。每个返回的第一文档或第一集合基于与所应用的注释的关系。如本文所示,视觉显示器(160)可操作地耦合到服务器(110)。在一个实施例中,视觉显示器(160)包括用于传送返回的第一文档或第一集合的用户界面(162)。视觉显示器(160)展示为具有三个视图,包含V0(164)、V1(166)和V2(168),但视图的数目不应被视为限制性的,且仅用于说明性目的。每个视图被配置成传达与文本挖掘***相关的不同类别的数据。如这里所示,返回的集合(168a)例如在该视觉显示器(162)的窗口的单独的视图中示出。(168a)处的集合在下文中被称为返回的集合。因而,文档管理器(142)用作与知识库(120)的接口。
如所示和描述的,文本管理器(144)可操作地耦合到文档管理器(142)。文本管理器(144)用作与返回的集合(168a)的接口。更具体地,文本管理器(144)将注释应用于返回的集合(168a),包括文本管理器(144)从返回的集合(168a)提取两个或更多个词。所提取的词在语言上与被应用于知识库(120)的注释相关联。在一个实施例中,文本管理器(144)是或用作语言解析器。用户接口(162)充当用于文本挖掘的交互式平台。在一个实施例中,包括但不限于计算机鼠标、指示笔、指针的实现方式,或者在具有电容传感器的显示器的情况下,可以利用手势与用户界面(162)和视图(164)-(168)进行交互。更具体地,通过用户界面,文本管理器(144)支持或者从来自返回的集合(168a)的所提取的两个或更多个词中选择至少一个词,并且将所选择的词指定为面元。在本领域中应理解,每个面元由如上定义和描述的面元值组成。文本管理器(144)选择性地支持面元值或将面元值添加到指定的面元。在一个实施例中,从文档管理器(142)返回的返回的文档集合(168a)中识别的一个或多个语言学术语中选择添加到指定面元的面元值,其中返回的文档集合(168)被确定为与指定面元相关。因而,文本管理器(144)与文档管理器一起用于管理面元和面元值分配和/或指定。
面元管理器(146)被示为在操作上耦合到文本管理器(144)。面元管理器(146)用于动态地执行对选择性添加的面元值的分析。更具体地,由面元管理器(146)进行的分析是基于统计的,例如,统计分析,所述分析包括计算用于所述面元值的所述临时添加的近似值。因而,面元管理器(146)用作针对面元值的分析工具。
一个或多个面元的集合与它们的一个或多个面元值一起形成字典。当将面元添加到集合或者修改用于任何面元的一个或多个面元值的选择时,字典的组成改变。一个或多个字典(132)被示为可操作地耦合到功能单元(140)和存储器(116)。在一个实施例中,一个或多个字典(132)存储在存储器中。类似地,在一个实施例中,一个或多个字典可以存储在本文示出的操作性地耦合到服务器(110)的永久性存储器(130)中。在一个实施例中,永久性存储器(130)被远程地存储并且跨网络(105)可操作地耦接到服务器(110)。如图所示,字典管理器(148)在操作上耦合到面元管理器(146)。字典管理器(148)构造第一临时字典(132),dictionary0,其由注释(132a)、面元(132b)以及临时添加的面元值(134c)和(134d)组成。尽管在此示出了两个面元值(134a)和(134b),但是该数量是出于说明性目的并且不应被认为是限制性的。字典管理器(148)基于统计分析来标识或选择知识库(120)中的集合(122)-(126)中的一个或多个,随后将字典(132)应用于所标识或所选择的集合。统计分析包括但不限于针对每个面元值(134a)和(134b)的字计数、频率和相关性。本申请返回显示在用户界面(162)中呈现的文档的目标列表(168a)。因而,字典管理器(148)与面元管理器(146)对接以选择性地标识和返回来自集合(122)-(126)中的一个或多个并且与注释、(多个)面元和相关联的面元值有关的文档的目标列表。
应当理解,数据存储器(130)可以存储多于一个字典。类似地,字典可被指定为临时的或非临时的。字典类别的指定可以基于字典的活动和修改。在一个实施例中,字典指定可经受改变。不管是临时的还是非临时的,字典由在此示出的可操作地耦合到存储器(116)的存储器上面元数据结构0(118a)组成。字典管理器(148)将选择性地添加的面元值(134a)和(134b)索引到存储器上数据结构(118a)。在一个实施例中,为每个字典创建单独的数据结构。数据结构(118a)与dictionary0(132)相关联。尽管在本文中仅示出了一个数据结构(118a),但是这是为了说明的目的,并且数量不应当被认为是限制性的。当面元值(134a)和(134b)被索引时,字典管理器(148)更新数据结构(118a)以反映将相关联的面元值添加到返回的文档目标列表(168a)。在一个实施例中,字典管理器(148)实时索引面元值(134a)和(134b)。
将字典(132)示出并描述为面元和面元值的集合。随着字典的集合或者在一个实施例中的组合的改变,将字典应用到语料库或者选择语料库内的集合可以返回文档的不同目标列表集合(168a)。返回的集合(168a)可包括在字典的先前版本到知识库(120)的先前应用中返回的相同文档中的一些文档或没有相同文档。如本文所示,字典(132)经受修改,由此创建第二字典(136),例如,dictionary1,具有来自dictionary0的面元和面元值的不同选择和集合(132)。在一个实施例中,创建第二存储器上facet data structure1(面元数据结构)(118b)并将其与第二字典(dictionary1)(136)相关联。将第二字典(136)以及在一个实施例中其相关联的数据结构(118b)应用到知识库(120)或选择语料库中的集合(122)-(126)返回第二目标文档列表集合(168b)。字典的创建是动态的。当一个字典被应用于知识库(120)时,文本管理器(144)生成用于添加到应用的字典的建议数据的列表。该列表基于所应用的字典的内容和所返回的被定为目标的文档的集合。建议的数据包括但不限于新面元和/或一个或多个新面元值。因而,字典管理器(148)与文本管理器(144)对接,用于动态评估返回的文档集合。
在视觉显示器上示出并传送建议的新面元和新面元值(160)。在一个实施例中,视图(164)、(166)或(168)中的一个被用作用于示出和传达(一个或多个)建议的字段。通过使用计算机鼠标(未示出)、指示笔(未示出)或与视觉显示器(160)交互的另一外部工具,可以选择建议中的一个或多个。基于该选择,字典管理器(148)将该选择添加到相关联的字典。在一个实施例中,添加的选择可以是临时的,例如,字典可以被指定为将字典的新组成应用到语料库的临时待决分析。例如,在一个实施例中,将字典的新组成应用于语料库可以返回与预期结果不相关或不相关的文档列表,并且因此,可以从字典中移除所添加的选择。类似地,在一个实施例中,返回的列表可以是相关的,在这种情况下,字典管理器(148)可以创建新的字典或将临时选择指定为永久的。更具体地,被标识为相关的返回的列表之后是字典管理器(148)将选择性地添加的(一个或多个)面元和/或(一个或多个)面元值索引到相关联的存储器上数据结构并更新相关联的数据结构。新字典或永久字典由索引存储器上数据结构组成,在本文中称为面元数据结构。
工具(142)至(148)可以包括操作性地耦合至处理单元(112)和存储器(116)的人工智能(AI)平台(150)的元件。AI平台(150)提供对将(多个)注释与文本挖掘进行整合的支持,包括对基于电子文本的文档中的(多个)面元和(多个)面元值的标识及其对知识库(120)或知识库(120)内的集合(122)-(126)的应用。如图所示,AI平台(150)包括可以是但不限于文档管理器(142)、文本管理器(144)、面元管理器(146)和字典管理器(148)的工具。这些工具中的每一个在AI平台(150)中分开地或组合地起作用以动态地评估知识库(120)内的一个或多个表达式。包括AI平台(150)的工具(142)-(148)采用知识库(120)和/或字典(132)的方面。服务器(110)被编程为从用户界面(162)获得输入数据,诸如电子文本数据。AI平台(150)用作所接收的输入数据与知识库(160)之间的接口。由AI平台(150)进行的分析可以生成字典,该字典基于对知识库(120)的应用来生成文档(168a)或(168b)的目标列表,该目标列表可以作为响应数据跨网络(105)传送。因而,AI平台(150)被编程为识别(多个)面元和/或(多个)面元值形式的相关输出数据,这些面元和/或(多个)面元值在应用于知识库(120)时识别目标列表(168a)或(168b)。
应当理解,功能单元(140)或AI平台(150)的元件可以在两个或更多个操作状态(包括活动和不活动)中起作用。当采用工具并且与可视显示器(160)交互以主动地传送数据时,功能单元(140)或AI平台(150)的工具被激活。在一个实施例中,功能单元(140)或AI平台(150)在后台保持在低操作状态中,直到完成(未显示)或手势激活或改变功能单元(140)的状态或AI平台(150)变为激活状态为止。
应当理解,工具(142)-(148)可以用作创建和/或修改字典(132)和(136)中的一个或多个并生成目标列表(168a)或(168b)的面元应用。面元应用结合工具(142)至(148)起作用,以识别相关和适当的面元和面元值以创建目标列表(168a)或(168b)。如这里所示,当应用进入活动状态时,应用向知识库(120)应用注释以搜索和标识其中针对注释或与注释相关的任何面元和面元值。基于面元和/或面元值标识,应用知识库(120)并查阅面元和/或面元值以便于查明文档的目标列表。应当理解,面元和/或面元值在知识库(120)中存在或不存在。例如,如果在知识库(120)中标识了面元和/或面元值的使用。找到面元和/或面元值的条目,在视觉显示器(160)上或更具体地在视觉显示器(160)的选择或指定区域内传送文档内面元和/或面元值的使用。类似地,如果在知识库(160)中没有发现面元和/或面元值的使用,则功能单元(140)或AI平台(150)可以从字典(132)和(136)中选择性地移除相关联的面元和/或面元值。
应当理解,视觉显示器(160)可被配置有多个窗口,其中每个窗口被配置成传达字典和返回的文档列表的不同方面。例如,可以在第一窗口V0上呈现当前字典的面元和面元值,并且可以在第二窗口V1上呈现当前字典的建议的面元或面元值。在一个实施例中,第一窗口V0邻近第二窗口V1定位,使得窗口不重叠以避免干扰。因而,用户界面(162)配置有多个窗口以与功能单元(140)或AI平台(150)对接,以选择性地控制对字典的面部和面元值的呈现和选择,以及传达对知识库(120)内所识别的文档或电子文本内的面元和面元值的使用。
向知识库(120)应用或提交注释标识一个或多个文档或相关电子文档数据。文档可以是包含文本的任何数字数据。例如,文档可以是诸如XML、PDF、HTML、LaTeX之类的文件或由文字处理软件创建的任何其他文件、由电子表格软件创建的电子表格、由演示软件创建的演示文件。文档的含义不旨在限于单个文件或任何特定量或单位的文本,并且在一些情况下,文档可以指一组文档。在图1的***(100)中所示的示例中,用户界面(162)可包括数据输入部分(170),该数据输入部分(170)在被提交给知识库(120)时从外部文档存储(122)-(126)获得或识别相关文档或电子数据。文档可以在***(100)内存储和/或创建和/或可以通过网络(诸如但不限于互联网、WAN和/或LAN)从其他计算机或服务器获得或在其他计算机或服务器上找到。
参见图2,提供了示出与面元编辑集成的文本挖掘的过程的流程图(200)。文本挖掘是用于在不必读取集合中的文档的全部内容的情况下理解大量非结构化文本数据的技术。在图2所示的实例中,***(100)执行所示出和描述的操作流程。应当理解,***(100)不限于使用所描述和示出的操作流程。在一个实施例中,图2中的操作流程可以由经修改的***或具有与图1中所示的***(100)不同的装置和组件的***来执行。
如图所示,***(100)利用知识库(120)内或知识库(120)内的一个或多个集合(122)-(126)内的文档集,下文称为语料库。例如,用户界面(162)的数据输入部分(166)可以标识集合(122)-(126)中的一个或多个。对所标识的集合(204)进行语言分析。在一个实施例中,一个或多个注释被提交给所识别的集合(202),并且在步骤(204)对注释的分析在所识别的集合上进行。注释的示例包括但不限于速度和/或图案的部分。从分析返回一个或多个文档或电子文本(206)。步骤(206)的分析包括关于注释的文本挖掘。应当理解,在步骤(206),文本挖掘从返回的文档或电子文本中提取或以其他方式标识一个或多个词语,其中每个所提取或标识的词语具有与所提交的注释中的至少一个的关联。对于每个返回的字,识别一个或多个建议的面元并与具有一个或多个相关联的面元值的每个面元一起呈现(208)。每个面元由一个或多个面元值(在本文中也被称为面元元数据)组成。此外,每个面元值具有使面元值与返回的文档的关系相关的对应数值。数值的实例包括但不限于频率和相关性。
建议的面元和面元值从语料库中发出,并且可以基于所提交的注释进行分类。在一个实施例中,建议的面元指向从文档提取的元数据。在一个实施例中,字例程可以用于标识所建议的面元中的一个或多个,但是这个例程不应当被认为是限制性的。作为示例,注释是与旅行相关的修正项,并且生成的潜在面元值的列表可包括特定修正项。面元和面元值的列表对于每个注释可以是不同的,或者在一个实施例中,对于在文本挖掘过程中识别的不同注释,可以存在一个或多个面元或面元值的重叠。因而,当从文本挖掘返回文档时,识别潜在的面元和面元值。
可选择性地添加面元或从面元与文本挖掘的关联移除面元。随着一个或多个面元被添加(210),所选择的面元被接受作为新面元或现有面元或注释的同义词(212)。在一个实施例中,在步骤(212)选择面元导致根据文本挖掘及其呈现来更新面元列表或注释。如所示和描述的,面元列表不是静态的。随着面元被选择并且与文本挖掘相关联,潜在的面元也经受修改。在一个实施例中,可以启动面元选择的刷新以识别新的或附加的面元选择。为了计算每个面元的准确统计数据,将每个面元索引到相关联的文本挖掘索引中。在步骤(212)选择和添加一个或多个面元之后,计算所添加的面元的近似数值(214)。在一个实施例中,步骤(214)处的计算返回每个面元的频率值和相关性,就好像该面元是相关联的字典中的索引面元。频率值针对集合中的文档与主题面元值的计数,并且相关性是语料库中的文档的预期数量与面元值的比率。该相关性帮助标识重要面元值。
根据所选择的面元和/或注释来构建字典(216)。在一个实施例中,随着一个或多个面元被选择性地添加,字典的组成改变,这在一个实施例中有效地创建字典的新格式,例如。第二字典。创建的字典实际上是语言元素的集合。字典是主题编辑,其包括添加元素并从字典中移除元素。在一个实施例中,包括字典的集合是直接或间接相关的语言元素的选择和布置。字典被配置成应用于语料库以用于文本挖掘。因而,将文本挖掘和面元注释与统计分析和新字典的创建一起集成。
参见图3,提供了示出用于利用面元值建议的面元编辑的过程的流程图(300)。如图所示,从文本挖掘提交返回一组文档(302)。与文本挖掘相关联地提供用户界面(UI)。更具体地,UI包括具有建议列表的面元编辑表(304),建议包括从显示的面元收集的词、选择的面元、可选的或建议的面元值以及词历史。对于面元编辑表中的每个建议的面元,面元的列表例如是单词。面元值可被分配并被呈现(306)。当用户在面元编辑表中找到或以其他方式识别感兴趣的词或语言值时,所识别的词或语言值被分配给所列出的面元之一作为面元值(308)。更具体地,在步骤(308),键入、选择或以其他方式标识所标识的面元值将被添加到的面元。在一个实施例中,AI平台(150)可以在步骤(308)实施面元和面元值的识别和分配。在步骤(308)之后,基于面元的修改的组成来更新相关联的面元分析(310)。该分析包括反映改变的或新的面元值的修改的面元组成的近似值的计算。在一个实施例中,步骤(310)处的计算返回每个面元的频率值和相关性,并且在一个实施例中,返回每个面元值的相关性,就好像面元是相关联的字典中的索引面元。面元及其相关联的语言术语(例如,面元值)的集合有效地创建面元和面元值的字典(312)。因而,随着面元的集合和组成被修改,相关联的字典的组成改变。
应当理解,图2和图3中所示出和描述的面元标识和面元值选择过程修改现有字典或创建新字典。字典被配置成应用于知识库(120)或知识库(120)内的一个或多个集合(122)-(126)(在本文中也被称为库)。将字典应用到知识库(120)返回一个或多个可应用的电子文本或文档的集合。应当理解,随着字典的组成改变,在文本挖掘中对返回项目的选择可以改变。因而,在步骤(312)之后,更新文本挖掘搜索结果以识别集合中的与面元和包括相关联的字典的面元值相关联的文档(314)。
面元和面元值识别和编辑的目标是将字典管理与文本挖掘集成。面元由面元值(例如,面元数据)组成。随着面元的选择和组成改变,面元所属的字典的组成被修改。此外,当将字典应用于语料库并且识别文档时,可以建议新面元和/或新面元值以指导文本挖掘。参见图4,提供流程图(400),其说明用于建议新面元的过程,例如,针对字典的单词建议。单词建议基于种子单词,种子单词可来自面元值、面元名称、在文本挖掘工具中输入或选择的单词及其历史、以及它们的组合。如图2和图3所示,通过识别单词、所识别的单词的元数据、以及将单词和元数据添加到相关联的字典中,来创建面元和相关联的面元值。更具体地,图2和图3涉及通过添加条目来构建字典。应当理解,也可以通过移除条目来改变字典的组成。每当条目被添加到字典或从字典中移除时,字典的组成就被修改以有效地创建新的字典。添加到字典的词语被称为肯定词语,并且从字典移除或以其他方式拒绝进入字典的词语被称为否定词语。
用面元列表创建字典(132),其中每个面元具有一个或多个面元值(402)。如所示和所描述的,字典是动态的并且经受修改。计算字典的字建议(404)。在一个实施例中,单词建议基于种子单词,种子单词可来自在文本挖掘过程中采用的面元值、面元单词和词语。还可以至少部分地基于一个或多个否定词来确定单词建议。随着面元的组成被更新(406),例如,单词被添加、移除或拒绝,对面元的建议被自动更新(408)。可以采用不同的技术和算法来计算单词建议。例如,在一个实施例中,字可以被用于找到类似的字,例如。种子词或文档集合中的高度相关的词。这样的技术从种子词返回值,并且这些值然后可以用作选择到字典中的特性。
如图2和3所示和所述,计算关于面元和面元值的统计。该计算在不重新索引字典的情况下发生。在本领域中,重编索引被理解为针对用于使知识库上的集合可使用字典分析的步骤。包括:遍历知识库中的每个文档,对于字典中的每个词,提取该文档中是否包含该词的信息,例如,注释,并且然后构建从该字到被确定为包含该字的文档的反向引用。此外,基于反向参考计算计数和相关性。如本文所描述的,对面元和面元值的计算在不重新索引字典的情况下发生。在一个实施例中,计算采用更新存储器上面元计数数据结构的实时索引的形式。重新索引实时反映新面元的统计值和相关联的面元值。在另一实施例中,计算是运行时动态评估。例如,在一个实施例中,相关联的搜索引擎配置有关键词形式的倒排索引以文档数据结构,并且统计值的计算采用该数据结构。一旦字典结束,文档管理器(142)就可以被配置为将从字典中提取的注释应用于知识库(120)。
图1-4中所示的文本挖掘和字典管理***和过程的各方面采用一个或多个功能工具,如图1中所示出和描述的。功能工具的各方面(例如,文档管理器、文本管理器、面元管理器、和字典管理器)以及它们相关联的功能可被实现在单个位置中的计算机***/服务器中,或者在一个实施例中,可被配置在共享计算资源的基于云的***中。参见图5,提供了示出用于实现以上关于图1-4描述的过程的计算机***/服务器(502)(在下文中被称为与基于云的支持***通信的主机(502))的示例的框图(500)。主机(502)可与许多其他通用或专用计算***环境或配置一起操作。可适合于与主机(502)一起使用的众所周知的计算***、环境和/或配置的实例包含,但不限于个人计算机***、服务器计算机***、瘦客户机、厚客户机,手持式或膝上型设备、多处理器***、基于微处理器的***、机顶盒、可编程消费电子产品,网络PC、小型计算机***、大型计算机***和包括任何上述***的文件***(例如,分布式存储环境和分布式云计算环境),装置及其等效物。
主机(502)可在由计算机***执行的计算机***可执行指令(例如程序模块)的一般上下文中描述。一般而言,程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。主机(502)可以在分布式云计算环境中实践,其中任务由通过通信网络链接的远程处理设备来执行。在分布式云计算环境中,程序模块可位于包括存储器存储设备的本地和远程计算机***存储介质两者中。
如图5所示,主机(502)以通用计算设备的形式示出。主机(502)的组件可以包括但不限于例如一个或多个处理器或处理单元(504)。硬件处理器、***存储器(506)以及将包括***存储器(506)在内的不同***组件耦合到处理器(504)的总线(508)。总线(508)表示若干类型的总线结构中的任一种总线结构中的一种或多种,包括存储器总线或存储器控制器、***总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制,此类架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和***组件互连(PCI)总线。主机(502)通常包括各种计算机***可读介质这样的介质可以是可由主机(502)访问的任何可用介质,并且它包括易失性和非易失性介质、可移动和不可移动介质两者。
存储器(506)可包括易失性存储器形式的计算机***可读介质,诸如随机存取存储器(RAM)(512)和/或高速缓存存储器(514)。仅通过举例的方式,可以提供存储***(516)用于从不可移动、非易失性磁介质(未示出,并且通常被称为“硬盘驱动器”)读取和向其写入。尽管未示出,可以提供用于从可移除的非易失性磁盘(例如,“软盘”)读取和向其写入的磁盘驱动器以及用于从可移除的非易失性光盘(如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的实例中,每一个都可以通过一个或多个数据介质接口连接到总线(508)。
具有一组(至少一个)程序模块(520)的程序/实用工具(518)以及操作***、一个或多个应用程序、其他程序模块和程序数据可以通过示例而非限制的方式存储在存储器(506)中。操作***、一个或多个应用程序、其他程序模块和程序数据中的每一者或其某一组合可包含联网环境的实施例。程序模块(520)通常执行实施例的功能和/或方法,以动态地应用和修改包括面元和面元值的字典。例如,程序模块(520)的集合可以包括被配置为如图1-4中所描述的文档、文本、面元和字典管理器的模块。
主机(502)还可以与一个或多个外部设备(540)通信,诸如键盘、定点设备等;显示器(550);使得用户能够与主机(502)交互的一个或多个设备;和/或使主机(502)能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)。这样的通信可以经由输入/输出(I/O)接口(510)发生。此外,主机(502)可以经由网络适配器(530)与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,互联网)之类的一个或多个网络通信。如所描绘的,网络适配器(530)经由总线(508)与主机(502)的其他组件通信。在一个实施例中,分布式文件***(未示出)的多个节点经由I/O接口(510)或经由网络适配器(530)与主机(502)通信。应当理解,虽然未示出,但是其他硬件和/或软件组件可以与主机(502)结合使用。示例包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID***、磁带驱动器和数据归档存储***等。
在本文档中,术语“计算机程序介质”、“计算机可用介质”、和“计算机可读介质”用于泛指如主存储器(506)(包括RAM(512))、高速缓存(514)、和存储***(516)(如移动存储驱动器和安装在硬盘驱动器中的硬盘)的介质。
计算机程序(也称为计算机控制逻辑)存储在存储器(506)中。计算机程序还可经由通信接口(诸如网络适配器(530))来接收。这样的计算机程序在运行时使得计算机***能够执行如本文所讨论的本实施例的特征。特别地,计算机程序在运行时使处理单元(504)能够执行计算机***的特征。因而,这样的计算机程序表示计算机***的控制器。
计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下:便携式计算机盘,硬盘、动态或静态随机存取存储器(RAM)、只读存储器(ROM),可擦除可编程只读存储器(EPROM或闪存)、磁存储设备、便携式紧凑盘只读存储器(CD-ROM),数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片)或具有记录在其上的指令的凹槽中的凸起结构),以及上述的任意合适的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)、或通过导线传输的电信号。
本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备,或经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本实施例的操作的计算机可读程序指令可以是汇编指令,指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言的任意组合编写的源代码或目标代码,包括Java、Smalltalk、C++等面向对象的编程语言,以及常规的过程式编程语言,如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器或服务器集群上执行。在后一种情形中,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接到外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化,以便执行实施例的各方面。
在一个实施例中,主机(502)是云计算环境的节点。如本领域已知的,云计算是用于实现方便的服务递送的模型,对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的按需网络访问,所述可配置计算资源可以用最小的管理努力或与服务提供者的交互来快速配置和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。此类特征的实例如下:
按需自助服务:云消费者可按需自动地单方面供应计算能力,诸如服务器时间和网络存储,而无需与服务的提供者的人类交互。
广泛的网络接入:能力在网络上是可用的并且通过标准机制来访问,所述标准机制促进由异构的瘦或厚客户端平台(例如,移动电话、膝上型计算机和PDA)的使用。
资源池化:提供者的计算资源被池化以使用多租户模型服务于多个消费者,其中不同的物理和虚拟资源根据需要被动态地指派和重新指派。存在位置独立性的意义,因为消费者一般没有对所提供的资源的确切位置的控制或了解,但可能能够指定较高抽象层(例如,国家、州或数据中心)处的位置。
快速弹性:可以快速且弹性地提供能力(在一些情况下,自动地)以快速缩小并且快速释放以快速放大。对于消费者,可用于供应的能力通常显得不受限制,并且可以在任何时间以任何数量购买。
可测量的服务:云***通过利用适于服务类型(例如,存储、处理、带宽和活动用户账户)的某一抽象层处的计量能力来自动控制和优化资源使用。资源使用可以被监控、控制和报告,从而为所利用的服务的提供者和消费者两者提供透明度。
业务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用可通过诸如web浏览器(例如,基于web的电子邮件)的瘦客户端接口从不同客户端设备访问。消费者不管理或控制包括网络、服务器、操作***、存储或甚至个体应用能力的底层云基础结构,可能的例外是有限的用户特定的应用配置设置。
平台即服务(PaaS):向消费者提供的能力是在云基础结构上部署消费者创建或获取的应用,所述应用是使用提供者所支持的编程语言和工具来创建的。消费者不管理或控制包括网络、服务器、操作***或存储的底层云基础结构,但是具有对所部署的应用以及可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供消费者能够部署和运行可包括操作***和应用的任意软件的处理、存储、网络和其他基本计算资源。消费者不管理或控制底层云基础结构,而是具有对操作***、存储、所部署的应用的控制,以及对所选联网组件(例如,主机防火墙)的可能有限的控制。
部署模型如下:
私有云:云基础结构仅为组织操作。它可由组织或第三方管理,并且可存在于场所内或场所外。
社区云:云基础结构由若干组织共享并且支持具有共享的关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可由组织或第三方管理,并且可存在于场所内或场所外。
公共云:使云基础结构对公众或大型产业组可用并且由销售云服务的组织拥有。混合云:云基础架构是两个或更多个云(私有、社区或公共)的组成,这些云保持唯一实体但通过标准化或专有技术绑定在一起,这些技术实现数据和应用便携性(例如,用于云之间的负载平衡的云突发)。
云计算环境是面向服务的,关注于状态、低耦合、模块性和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
现在参见图6,示出了说明性云计算网络(600)。如图所示,云计算网络(600)包括具有一个或多个云计算节点(610)的云计算环境(650),云消费者使用的本地计算设备可以与该一个或多个云计算节点通信。这些本地计算设备的示例包括但不限于个人数字助理(PDA)或蜂窝电话(654A)、台式计算机(654B)、膝上型计算机(654C)和/或汽车计算机***(654N)。节点(610)内的各个节点可以进一步彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境(600)提供基础结构、平台和/或软件作为云消费者不需要维护本地计算设备上的资源的服务。应当理解,图6中示出的计算设备(654A-N)的类型旨在仅是说明性的,并且云计算环境(650)可通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算机化设备进行通信。
现在参见图7,示出了由图6的云计算网络提供的一组功能抽象层(700)。应预先理解,图7中所示的组件、层和功能仅旨在是说明性的,并且实施例不限于此。如所描绘的,提供了以下层和相应的功能:硬件和软件层(710)、虚拟化层(720)、管理层(730)和工作负荷层(740)。硬件和软件层(710)包括硬件和软件组件。硬件组件的示例包括大型机,在一个示例中为
Figure BDA0002889109280000131
***;基于RISC(精简指令集计算机)架构的服务器,在一个示例中为IBM
Figure BDA0002889109280000132
***;IBM
Figure BDA0002889109280000136
***;IBM
Figure BDA0002889109280000135
***;存储设备;网络和联网组件。软件组件的示例包括网络应用服务器软件,在一个示例中,IBM
Figure BDA0002889109280000134
应用服务器软件;以及数据库软件,在一个示例中,IBM
Figure BDA0002889109280000133
数据库软件。(IBM、zSeries、pSeries、xSeries、BladeCenter、WebSphere和DB2是国际商业机器公司在全世界许多管辖区域注册的商标)。
虚拟化层(720)提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器;虚拟存储;虚拟网络,包括虚拟专用网络;虚拟应用和操作***;以及虚拟客户端。
在一个示例中,管理层(730)可提供以下功能:资源供应、计量和定价、用户门户、服务层管理和SLA规划和履行。资源供应提供用于在云计算环境内执行任务的计算资源和其他资源的动态获取。计量和定价在云计算环境内利用资源时提供成本跟踪,并针对这些资源的消费进行计费或***。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及对数据和其他资源的保护。用户门户为消费者和***管理员提供对云计算环境的访问。服务层管理提供云计算资源分配和管理,使得满足所需的服务层。服务层协议(SLA)计划和履行为根据SLA预期未来要求的云计算资源提供预安排和采购。
工作负载层(740)提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括但不限于:映射和导航;软件开发和生命周期管理;虚拟教室教育交付;数据分析处理;交易处理;以及面元和面元值管理。
如本领域技术人员将认识到的,这些方面可以体现为***、方法或计算机程序产品。相应地,这些方面可以采取以下形式:完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合了软件方面和硬件方面的实施例,这些实施例在此可以统称为“电路”、“模块”或“***。”此外,本文描述的方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质具有体现在其上的计算机可读程序代码。
计算机可读信号介质可以包括在基带中或者作为载波的一部分在其中体现有计算机可读程序代码的传播数据信号。这种传播信号可采取多种形式中的任一种,包括但不限于电磁、光学或其任何合适的组合。计算机可读信号媒体可为并非计算机可读存储媒体且可传送、传播或传输供指令执行***、设备或装置使用或结合指令执行***、设备或装置使用的程序的任何计算机可读媒体。
以上参考方法、装置(***)和计算机程序产品的流程图图示和/或框图描述了实施例。应当理解,流程图图示和/或框图的每个方框以及流程图图示和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机的处理器,专用计算机或其他可编程数据处理装置,以产生机器,其通过计算机或其他可编程数据处理装置的处理器执行,创建用于实现在流程图和/或框图的一个或多个块中指定的功能/动作的装置。
这些计算机程序指令还可存储在可指导计算机的计算机可读介质中,其他可编程数据处理装置,或以特定方式起作用的其他设备,使得存储在计算机可读介质中的指令产生包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品。
计算机程序指令还可以被加载到计算机、其他可编程数据处理装置上,或使得在计算机上执行一系列操作步骤的其他装置,其他可编程装置或其他设备,以产生计算机实现的过程,其在计算机或其他可编程装置上执行,提供用于实现在流程图和/或框图的一个或多个块中指定的功能/动作的过程。
附图中的流程图和框图示出了根据不同实施例的***、方法和计算机程序产品的可能实现的架构、功能和操作。对此,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。还应注意,在一些替代实施例中,框中所标注的功能可以不以图中所标注的次序发生。例如,取决于所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行。还将注意的是,框图和/或流程图图示中的每个框、以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作的基于专用硬件的***、或专用硬件与计算机指令的组合来实现。
在此使用的术语仅用于描述具体实施例的目的并且不旨在是限制性的。如在此使用的,单数形式“一个”、“一种”和“该”旨在也包括复数形式,除非上下文另外清楚地指示。将进一步理解,当在本说明书中使用术语“包括”和/或“包括”时,其指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或其群组的存在或添加。
在此描述的实施例可以在***、方法和/或计算机程序产品中实现。计算机程序产品可包括其上具有用于使处理器执行本文所述的实施例的计算机可读程序指令的计算机可读存储介质(或多个介质)。
本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备,或经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
本文参考方法、装置(***)和计算机程序产品的流程图图示和/或框图描述实施例。应当理解,流程图图示和/或框图的每个方框以及流程图图示和/或框图中各方框的组合,都可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给通用计算机的处理器,专用计算机或其他可编程数据处理装置,以产生机器,其通过计算机或其他可编程数据处理装置的处理器执行,创建用于实现在流程图和/或框图的一个或多个块中指定的功能/动作的装置。这些计算机可读程序指令还可存储在可指导计算机的计算机可读存储介质中,可编程数据处理装置,和/或以特定方式起作用的其他设备,使得具有存储在其中的指令的计算机可读存储介质包括制品,该制品包括实现在流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
应当理解,尽管为了说明的目的已经在本文中描述了特定实施例,但是在不脱离本文中描述的特定实施例的范围的情况下可以做出不同修改。因此,保护范围仅由所附权利要求及其等同物限定。
本文参考根据实施例的方法、装置(***)和计算机程序产品的流程图图示和/或框图来描述本实施例的各方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令来实现。
计算机可读程序指令还可以加载到计算机、其他可编程数据处理装置上,或使得在计算机上执行一系列操作步骤的其他装置,其他可编程装置或其他设备,以产生计算机实现的过程,使得在计算机上执行的指令,其他可编程装置或其他设备实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
以下权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等效物旨在包括用于结合如具体要求保护的其他要求保护的元件来执行功能的任何结构、材料或动作。已经出于说明和描述的目的呈现了本实施例的描述,但是并不旨在是穷尽性的或局限于所披露的形式的实施例。
实际上,可执行代码可以是单个指令或许多指令,并且甚至可以分布在若干不同代码段上、不同应用之间和跨若干存储器设备。类似地,操作数据可以在本文中在工具内被识别和示出,并且可以以任何合适的形式体现和被组织在任何合适类型的数据结构内。操作数据可以被收集为单个数据集,或者可以分布在不同位置(包括不同的存储设备)上,并且可以至少部分地作为***或网络上的电子信号存在。
此外,所描述的特征、结构或特性可以在一个或多个实施例中以任何合适的方式组合。在以下描述中,提供了许多具体细节,例如试剂的实例,以提供对所披露的实施例的透彻理解。然而,相关领域的技术人员将认识到,可以在没有一个或多个具体细节的情况下或用其他方法、部件、材料等来实践实施例。在其他实例中,未详细示出或描述公知的结构、材料或操作以避免模糊实施例的各方面。
以下权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等效物旨在包括用于结合如具体要求保护的其他要求保护的元件来执行功能的任何结构、材料或动作。已经出于说明和描述的目的呈现了本实施例的描述,但是并不旨在是详尽的或者限于所公开的形式的实施例。在不脱离实施例的范围的情况下,许多修改和变化对本领域普通技术人员来说将是显而易见的。选择和描述实施例,以便最好地解释实施例的原理和实际应用,并且使得本领域普通技术人员能够理解具有适合于预期的特定用途的不同修改的不同实施例的实施例。因而,面元和面元值标识和管理的实现提供了文档高效的翻译和习惯分析。
将理解,尽管为了说明的目的在本文中描述了特定实施例,但可在不脱离实施例的范围的情况下进行不同修改。具体地,所示出和描述的***的工具可以结合机器学习技术使用,并且应用于知识库外部的语料库,以返回文档的准确针对性列表。因此,保护范围仅由所附权利要求及其等同物限定。

Claims (24)

1.一种***,包括:
处理单元,其可操作地耦接到存储器;
功能单元,所述功能单元与所述处理单元通信,所述功能单元具有支持文本挖掘和字典构建的工具,所述工具将注释与文本挖掘集成,包括将所述注释应用于知识库,所述工具包括:
文档管理器,用于将注释与所述文本挖掘集成,包括所述文档管理器将所述注释应用于所述知识库并且基于所述注释返回来自所述知识库的第一文档集合;
文本管理器,可操作地耦合到所述文档管理器,所述文本管理器用于:
从所返回的第一文档集合中提取两个或更多个词,所提取的两个或更多个词与所应用的注释相关联;
从所提取的两个或更多个词中选择至少一个词,并且将所选择的词指定为面元;并且
向所述面元选择性地添加面元值,所述面元值选自从由所述文档管理器返回的所述文档的第一集合中标识的一个或多个语言术语,所述第一集合被确定为与所述面元相关;
面元管理器,可操作地耦合到所述文本管理器,所述面元管理器动态地执行对所述选择性添加的面元值的统计分析,所述分析包括计算用于所述面元值的所述临时添加的近似值;
字典管理器,可操作地耦合到所述面元管理器,所述字典管理器用于:
构建包括注释、面元以及一个或多个临时添加的面元值的第一临时字典;并且
将所构建的第一临时字典选择性地应用于对所述统计分析的所述第一收集响应;并且
从所述第一临时字典到所述第一集合的所述选择性应用返回的文档的目标列表。
2.如权利要求1所述的***,进一步包括所述字典管理器用于构造第一非临时字典,包括所述字典管理器以将所述选择性添加的面元值索引到与所述第一临时字典相关联的存储器上面元数据结构,以及响应于返回的文档目标列表,更新数据结构以反映选择性添加的面元值。
3.如权利要求2的***,其中该字典管理器将该面元值索引到该存储器上面元数据结构是实时的。
4.如权利要求1的***,其中,该选择性添加的面元值的统计分析包括从由以下各项组成的组中选择的数据:字计数、频率和该面元值的相关性。
5.如权利要求1的***,其中该注释选自由以下各项组成的群组:语音的部分、模式及其组合。
6.如权利要求2的***,进一步包括该文档管理器以将该第一非临时字典应用于该知识库,并且基于该存储器上面元数据结构的组成返回第二文档集合。
7.如权利要求6的***,进一步包括该文本管理器以用于生成用于临时添加到该第一非临时字典的一个或多个建议数据的列表,所述列表基于所述第一非临时字典和所返回的第二集合的内容,其中,所建议的数据包括从由新面元,新面元值以及它们的组合组成的组中选择的项目。
8.如权利要求7所述的***,还包括所述字典管理器以将来自所生成的列表的所述建议数据中的一个或多个选择性地添加到所述第一非临时字典,其中,所述选择性添加是临时的。
9.如权利要求8的***,进一步包括该字典管理器以构建第二字典,包括该字典管理器以对该选择性地添加的一个或多个建议的数据索引到该存储器上面元数据结构,并且更新该数据结构,包括返回包括该索引的存储器上面元数据结构的第二字典。
10.一种用于文本挖掘的计算机程序产品,所述计算机程序产品包括计算机可读存储装置,所述计算机可读存储装置具有随其体现的程序代码,所述程序代码可由处理器执行以:
将注释与文本挖掘***集成,包括将所述注释应用于知识库并且基于所述注释从所述知识库返回第一文档集合的程序代码;
从所返回的第一文档集合中提取两个或更多个词,所提取的两个或更多个词与所应用的注释相关联;
从所提取的两个或更多个词中选择至少一个词,并且将所选择的词指定为面元;
将面元值临时添加到所述面元,所述面元值选自从所返回的第一文档集合中标识的一个或多个语言术语,所述第一集合被确定为与所述面元相关;
动态地执行对所述选择性地添加的面元值的统计分析,所述分析包括计算用于所述面元值的所述临时添加的近似值;
构建包括注释、面元以及一个或多个临时添加的面元值的第一临时字典;并且
将所构建的第一临时字典选择性地应用于对所述统计分析的所述第一集合响应;并且
从所述第一临时字典到所述第一集合的所述选择性应用返回的文档的目标列表。
11.如权利要求10的计算机程序产品,包括用于构建第一非临时字典的程序代码,包括用于将所述选择性地添加的面元值索引到与所述第一临时字典相关联的存储器上面元数据结构的程序代码,以及响应于返回的文档目标列表,更新数据结构以反映选择性添加的面元值。
12.如权利要求11的计算机程序产品,其中该程序译码器将该面元值索引到该存储器上面元数据结构是实时的。
13.如权利要求10的计算机程序产品,其中对该选择性添加的面元值的该统计分析包括从由以下各项组成的组中选择的数据:字计数、频率和该面元值的相关性。
14.如权利要求10的计算机程序产品,其中该注释选自由以下各项组成的群组:语音的部分、模式及其组合。
15.如权利要求11的计算机程序产品,进一步包括用于将该第一非临时字典应用于该知识库并且基于该存储器上面元数据结构的组成返回第二文档集合的程序代码。
16.如权利要求15的计算机程序产品,进一步包括用于生成用于临时添加到该第一非临时字典的一个或多个建议的数据的列表的程序代码,所述列表基于所述第一非临时字典和所返回的第二集合的内容,其中,所建议的数据包括从由新面元,新面元值以及它们的组合组成的组中选择的项目。
17.如权利要求16的计算机程序产品,进一步包括用于将来自该生成的列表的该建议数据中的一个或多个选择性地添加到该第一非临时字典的程序代码,其中该选择性添加是临时的。
18.如权利要求17的计算机程序产品,进一步包括程序代码以构造第二字典,该第二字典包括该程序代码以用于将该选择性地添加的一个或多个建议的数据索引到该存储器上面元数据结构,并且更新该数据结构,包括返回包括该索引的存储器上面元数据结构的第二字典。
19.一种方法,包括:
将注释与文本挖掘***集成,包括将所述注释应用于知识库,以及基于所述注释从所述知识库返回第一文档集合;
从所返回的第一文档集合中提取两个或更多个词,所提取的两个或更多个词与所应用的注释相关联;
从所提取的两个或更多个词中选择至少一个词,并且将所选择的词指定为面元;
将面元值临时添加到所述面元,所述面元值选自从被确定为与所述面元相关的所返回的第一文档集合中标识的一个或多个语言术语;
动态地执行对所述选择性添加的面元值的统计分析,所述分析计算用于所述临时面元值添加的近似值;
构建第一临时字典,所述第一临时字典包括所述注释、所述面元以及所述临时添加的面元值中的一个或多个;
将所构建的第一临时字典选择性地应用于对所述统计分析的所述第一收集响应;并且
从所述第一临时字典到所述第一集合的所述选择性应用返回的文档的目标列表。
20.如权利要求19的方法,进一步包括构建第一非临时字典,包括将该选择性添加的面元值索引到与该第一临时字典相关联的存储器上面元数据结构,并且响应于所返回的文档目标列表来更新该数据结构以反映该选择性添加的面元值。
21.如权利要求19的方法,进一步包括将该第一非临时字典应用于该知识库,并且基于该存储器上面元数据结构的组成返回第二文档集合。
22.如权利要求21的方法,进一步包括生成用于临时添加到该第一非临时字典的一个或多个建议数据的列表,所述列表基于所述第一非临时字典对所述知识库的应用和返回的第二集合,其中,所建议的数据包括从由新面元,新面元值以及它们的组合组成的组中选择的项目。
23.一种***,包括:
处理单元,其可操作地耦接到存储器;
功能单元,所述功能单元与所述处理单元通信,所述功能单元具有用于支持文本挖掘和动态字典构建的工具,所述工具包括:
文档管理器,用于将注释应用于知识库,所述应用基于所应用的注释来返回第一文档集合;
文本管理器,操作性地耦合到所述文档管理器,所述文本管理器用于:
识别所述第一集合中的一个或多个面元,所识别的一个或多个面元在语言上与所应用的注释相关;
对于每个所识别的一个或多个面元,所述文本管理器用于:
从所返回的第一文档集合中提取两个或更多个词,每个所提取的词在语言上与所述第一集合中的所识别的面元相关联;
响应于从所提取的两个或更多个词中选择至少一个词,所述文本管理器用于:
将所选择的至少一个字指定为面元值;
将所述面元值临时分配给所述面元;
实时地,统计地分析指定的面元值与识别的面元的语言关系的强度;并且
响应于所述统计分析选择性地将所述面元值添加到所述面元;以及
根据存储所识别的面元和选择性地添加的面元值而创建的字典。
24.一种方法,包括:
向知识库应用注释并且基于所应用的注释返回第一文档集合;
识别所述第一集合中的一个或多个面元,所识别的一个或多个面元在语言上与所应用的注释相关;
对于每个所识别的一个或多个面元:
从所返回的第一文档集合中提取两个或更多个词,每个所提取的词在语言上与所述第一集合中所识别的面元相关联;
从所提取的两个或更多个词中选择至少一个词;
将所选择的至少一个字指定为面元值;以及
将所述面元值临时分配给所述面元;
实时统计分析指定面元值与识别面元的语言关系的强度
响应于所述统计分析选择性地将所述面元值添加到所述面元;以及
创建存储所识别的面元和选择性地添加的面元值的字典。
CN201980046306.1A 2018-07-18 2019-07-17 与文本挖掘集成的规范编辑*** Active CN112384907B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/038,224 US10740381B2 (en) 2018-07-18 2018-07-18 Dictionary editing system integrated with text mining
US16/038,224 2018-07-18
PCT/IB2019/056094 WO2020016794A1 (en) 2018-07-18 2019-07-17 Dictionary editing system integrated with text mining

Publications (2)

Publication Number Publication Date
CN112384907A true CN112384907A (zh) 2021-02-19
CN112384907B CN112384907B (zh) 2024-05-28

Family

ID=69160687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980046306.1A Active CN112384907B (zh) 2018-07-18 2019-07-17 与文本挖掘集成的规范编辑***

Country Status (6)

Country Link
US (2) US10740381B2 (zh)
JP (1) JP7239671B2 (zh)
CN (1) CN112384907B (zh)
DE (1) DE112019002235T5 (zh)
GB (1) GB202101530D0 (zh)
WO (1) WO2020016794A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010593A (zh) * 2021-04-02 2021-06-22 北京智通云联科技有限公司 非结构化文本的事件抽取方法、***及装置
CN113384898A (zh) * 2021-06-10 2021-09-14 网易(杭州)网络有限公司 数据处理方法、装置、设备及存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10740381B2 (en) * 2018-07-18 2020-08-11 International Business Machines Corporation Dictionary editing system integrated with text mining
US11176000B2 (en) 2019-01-25 2021-11-16 International Business Machines Corporation Methods and systems for custom metadata driven data protection and identification of data
US11914869B2 (en) 2019-01-25 2024-02-27 International Business Machines Corporation Methods and systems for encryption based on intelligent data classification
US11113148B2 (en) 2019-01-25 2021-09-07 International Business Machines Corporation Methods and systems for metadata tag inheritance for data backup
US11030054B2 (en) 2019-01-25 2021-06-08 International Business Machines Corporation Methods and systems for data backup based on data classification
US11100048B2 (en) 2019-01-25 2021-08-24 International Business Machines Corporation Methods and systems for metadata tag inheritance between multiple file systems within a storage system
US11093448B2 (en) 2019-01-25 2021-08-17 International Business Machines Corporation Methods and systems for metadata tag inheritance for data tiering
US11210266B2 (en) * 2019-01-25 2021-12-28 International Business Machines Corporation Methods and systems for natural language processing of metadata
US11113238B2 (en) 2019-01-25 2021-09-07 International Business Machines Corporation Methods and systems for metadata tag inheritance between multiple storage systems

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1628298A (zh) * 2002-05-28 2005-06-15 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 综合从搜索***中使用的文档中抽取知识的自学习***的方法
US20060230346A1 (en) * 2005-04-12 2006-10-12 Bhogal Kulvir S System and method for providing a transient dictionary that travels with an original electronic document
CN1928862A (zh) * 2005-09-08 2007-03-14 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的***和方法
CN104239395A (zh) * 2013-06-21 2014-12-24 国际商业机器公司 搜索的方法和***
US20170308524A1 (en) * 2016-04-26 2017-10-26 International Business Machines Corporation Structured dictionary population utilizing text analytics of unstructured language dictionary text
US20180157641A1 (en) * 2016-12-07 2018-06-07 International Business Machines Corporation Automatic Detection of Required Tools for a Task Described in Natural Language Content

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470306B1 (en) * 1996-04-23 2002-10-22 Logovista Corporation Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US6738765B1 (en) * 2000-08-11 2004-05-18 Attensity Corporation Relational text index creation and searching
US6732098B1 (en) * 2000-08-11 2004-05-04 Attensity Corporation Relational text index creation and searching
US7171349B1 (en) * 2000-08-11 2007-01-30 Attensity Corporation Relational text index creation and searching
US6732097B1 (en) * 2000-08-11 2004-05-04 Attensity Corporation Relational text index creation and searching
US6728707B1 (en) * 2000-08-11 2004-04-27 Attensity Corporation Relational text index creation and searching
CA2411227C (en) * 2002-07-03 2007-01-09 2012244 Ontario Inc. System and method of creating and using compact linguistic data
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
US20180096203A1 (en) * 2004-04-12 2018-04-05 Google Inc. Adding value to a rendered document
JP2006099423A (ja) 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
GB0513225D0 (en) * 2005-06-29 2005-08-03 Ibm Method and system for building and contracting a linguistic dictionary
US7809551B2 (en) * 2005-07-01 2010-10-05 Xerox Corporation Concept matching system
US7689411B2 (en) * 2005-07-01 2010-03-30 Xerox Corporation Concept matching
JP4170325B2 (ja) * 2005-08-05 2008-10-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 辞書の妥当性を評価する装置、方法およびプログラム
US20070106499A1 (en) * 2005-08-09 2007-05-10 Kathleen Dahlgren Natural language search system
US8856096B2 (en) * 2005-11-16 2014-10-07 Vcvc Iii Llc Extending keyword searching to syntactically and semantically annotated data
US8060357B2 (en) * 2006-01-27 2011-11-15 Xerox Corporation Linguistic user interface
US20070239742A1 (en) * 2006-04-06 2007-10-11 Oracle International Corporation Determining data elements in heterogeneous schema definitions for possible mapping
US9043265B2 (en) * 2006-09-21 2015-05-26 Aebis, Inc. Methods and systems for constructing intelligent glossaries from distinction-based reasoning
US7945527B2 (en) * 2006-09-21 2011-05-17 Aebis, Inc. Methods and systems for interpreting text using intelligent glossaries
US7774198B2 (en) * 2006-10-06 2010-08-10 Xerox Corporation Navigation system for text
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US8335754B2 (en) * 2009-03-06 2012-12-18 Tagged, Inc. Representing a document using a semantic structure
US8533208B2 (en) * 2009-09-28 2013-09-10 Ebay Inc. System and method for topic extraction and opinion mining
US8346795B2 (en) * 2010-03-10 2013-01-01 Xerox Corporation System and method for guiding entity-based searching
US9110883B2 (en) * 2011-04-01 2015-08-18 Rima Ghannam System for natural language understanding
US20120330869A1 (en) * 2011-06-25 2012-12-27 Jayson Theordore Durham Mental Model Elicitation Device (MMED) Methods and Apparatus
US9298816B2 (en) 2011-07-22 2016-03-29 Open Text S.A. Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
US20140046891A1 (en) * 2012-01-25 2014-02-13 Sarah Banas Sapient or Sentient Artificial Intelligence
US9436738B2 (en) * 2012-04-19 2016-09-06 Nant Holdings Ip, Llc Mechanical Turk integrated IDE, systems and method
US8983930B2 (en) * 2013-03-11 2015-03-17 Wal-Mart Stores, Inc. Facet group ranking for search results
US9286289B2 (en) * 2013-04-09 2016-03-15 Softwin Srl Romania Ordering a lexicon network for automatic disambiguation
US9026551B2 (en) 2013-06-25 2015-05-05 Hartford Fire Insurance Company System and method for evaluating text to support multiple insurance applications
US9483460B2 (en) * 2013-10-07 2016-11-01 Google Inc. Automated formation of specialized dictionaries
US10078499B2 (en) * 2015-03-10 2018-09-18 Anthony Martello System and method for manipulating and displaying data
US20150347570A1 (en) 2014-05-28 2015-12-03 General Electric Company Consolidating vocabulary for automated text processing
US9348920B1 (en) * 2014-12-22 2016-05-24 Palantir Technologies Inc. Concept indexing among database of documents using machine learning techniques
US20160292153A1 (en) * 2015-03-31 2016-10-06 International Business Machines Corporation Identification of examples in documents
US10984056B2 (en) * 2015-04-30 2021-04-20 Walmart Apollo, Llc Systems and methods for evaluating search query terms for improving search results
US10353966B2 (en) * 2015-11-19 2019-07-16 BloomReach, Inc. Dynamic attributes for searching
US10380192B2 (en) * 2015-12-08 2019-08-13 Oath Inc. Method and system for providing context based query suggestions
US10509855B2 (en) 2016-03-02 2019-12-17 International Business Machines Corporation Dynamic facet tree generation
US10339148B2 (en) * 2016-07-27 2019-07-02 Microsoft Technology Licensing, Llc Cross-platform computer application query categories
US10387435B2 (en) * 2016-07-27 2019-08-20 Microsoft Technology Licensing, Llc Computer application query suggestions
US10497042B2 (en) * 2016-08-29 2019-12-03 BloomReach, Inc. Search ranking
CN106776574B (zh) 2016-12-28 2020-01-24 Tcl集团股份有限公司 用户评论文本挖掘方法及装置
US10255271B2 (en) * 2017-02-06 2019-04-09 International Business Machines Corporation Disambiguation of the meaning of terms based on context pattern detection
US9996527B1 (en) * 2017-03-30 2018-06-12 International Business Machines Corporation Supporting interactive text mining process with natural language and dialog
US10268688B2 (en) * 2017-05-03 2019-04-23 International Business Machines Corporation Corpus-scoped annotation and analysis
CN107256258B (zh) * 2017-06-12 2019-09-06 上海智臻智能网络科技股份有限公司 语义表达式生成方法及装置
JP2019049873A (ja) * 2017-09-11 2019-03-28 株式会社Screenホールディングス 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
US10846341B2 (en) * 2017-10-13 2020-11-24 Kpmg Llp System and method for analysis of structured and unstructured data
US10303771B1 (en) * 2018-02-14 2019-05-28 Capital One Services, Llc Utilizing machine learning models to identify insights in a document
US20190294665A1 (en) * 2018-03-23 2019-09-26 Abbyy Production Llc Training information extraction classifiers
JP6762678B2 (ja) * 2018-03-27 2020-09-30 日本電信電話株式会社 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
US10795899B2 (en) * 2018-07-17 2020-10-06 Praxi Data, Inc. Data discovery solution for data curation
US10740381B2 (en) * 2018-07-18 2020-08-11 International Business Machines Corporation Dictionary editing system integrated with text mining

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1628298A (zh) * 2002-05-28 2005-06-15 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 综合从搜索***中使用的文档中抽取知识的自学习***的方法
US20060230346A1 (en) * 2005-04-12 2006-10-12 Bhogal Kulvir S System and method for providing a transient dictionary that travels with an original electronic document
CN1928862A (zh) * 2005-09-08 2007-03-14 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的***和方法
CN104239395A (zh) * 2013-06-21 2014-12-24 国际商业机器公司 搜索的方法和***
US20170308524A1 (en) * 2016-04-26 2017-10-26 International Business Machines Corporation Structured dictionary population utilizing text analytics of unstructured language dictionary text
US20180157641A1 (en) * 2016-12-07 2018-06-07 International Business Machines Corporation Automatic Detection of Required Tools for a Task Described in Natural Language Content

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
任成义;: "基于网页的知识元挖掘", 图书情报工作, no. 1, 15 June 2010 (2010-06-15), pages 284 - 287 *
俞士汶, 段慧明, 朱学锋, 张化瑞: "综合型语言知识库的建设与利用", 中文信息学报, no. 05, 25 September 2004 (2004-09-25), pages 2 - 11 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010593A (zh) * 2021-04-02 2021-06-22 北京智通云联科技有限公司 非结构化文本的事件抽取方法、***及装置
CN113010593B (zh) * 2021-04-02 2024-02-13 北京智通云联科技有限公司 非结构化文本的事件抽取方法、***及装置
CN113384898A (zh) * 2021-06-10 2021-09-14 网易(杭州)网络有限公司 数据处理方法、装置、设备及存储介质
CN113384898B (zh) * 2021-06-10 2024-01-30 网易(杭州)网络有限公司 数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
DE112019002235T5 (de) 2021-02-11
CN112384907B (zh) 2024-05-28
JP7239671B2 (ja) 2023-03-14
US20200026799A1 (en) 2020-01-23
JP2021530778A (ja) 2021-11-11
WO2020016794A1 (en) 2020-01-23
GB202101530D0 (en) 2021-03-24
US11687579B2 (en) 2023-06-27
US20200293566A1 (en) 2020-09-17
US10740381B2 (en) 2020-08-11

Similar Documents

Publication Publication Date Title
CN112384907B (zh) 与文本挖掘集成的规范编辑***
US10789552B2 (en) Question answering system-based generation of distractors using machine learning
US11170181B2 (en) Document preparation with argumentation support from a deep question answering system
US10180984B2 (en) Pivot facets for text mining and search
US11361030B2 (en) Positive/negative facet identification in similar documents to search context
US9563421B2 (en) Refining data understanding through impact analysis
CN114730383A (zh) 使用循环神经网络融合多模态数据
US10558687B2 (en) Returning search results utilizing topical user click data when search queries are dissimilar
CN114386085A (zh) 掩蔽文档中的敏感信息
US10109214B2 (en) Cognitive bias determination and modeling
CN115004174A (zh) 在虚拟代理对话***的对话日志中搜索对比时间模式
US11275777B2 (en) Methods and systems for generating timelines for entities
US20230029218A1 (en) Feature engineering using interactive learning between structured and unstructured data
US11226832B2 (en) Dynamic generation of user interfaces based on dialogue
US20200110834A1 (en) Dynamic Linguistic Assessment and Measurement
US10902200B2 (en) Automated constraint extraction and testing
US10235632B2 (en) Automatic claim reliability scorer based on extraction and evidence analysis
US11204951B2 (en) Hierarchical target centric pattern generation
US20220414168A1 (en) Semantics based search result optimization
US10963490B2 (en) Text extraction and processing
US20180121428A1 (en) Returning search results utilizing topical user click data when search queries are dissimilar
US11036936B2 (en) Cognitive analysis and content filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant