CN102576355A

CN102576355A - 知识发现的方法和***

Info

Publication number: CN102576355A
Application number: CN2010800280498A
Authority: CN
Inventors: M.施密特; M.迪沃西
Original assignee: COLLEXIS HOLDINGS Inc
Current assignee: COLLEXIS HOLDINGS Inc
Priority date: 2009-05-14
Filing date: 2010-05-14
Publication date: 2012-07-11
Also published as: EP2430568A1; JP2012527058A; JP5687269B2; EP2430568A4; US20120158400A1; WO2010132790A1

Abstract

在一方面，提供了用于分析文本的自然语言处理(NLP)工作流引擎。该引擎可以将一个或多个独立的NLP组件(例如断词、词性标记、命名实体识别)组合成有意义的处理工作流。

Description

知识发现的方法和***

本申请要求于2009年5月14日提交的美国临时专利申请号61/178482的权益和优先权，在此通过引用并将其作为在此的一部分而全部并入。

发明内容

在一方面，提供了用于分析文本的自然语言处理(NLP)工作流引擎的***、方法和计算机程序产品。该引擎可以将一个或多个独立的NLP组件(例如断词(tokenization)、词性标记、命名实体识别)组合成有意义的处理工作流。另外的优点将在随后的描述中部分地阐述，或者也可以通过实践学习。将通过在所附权利要求中特别指出的要素和组合实现并获得这些优点。要理解，之前的一般描述和接下来的详细描述两者仅仅是示例的和说明性的，并且不意图限制，如所声称的。

附图说明

被并入本说明书中并作为本说明书的一部分的附图例示了各实施例并与描述一起用于说明方法和***的原理：

图1是示例的模块化自然语言处理(NLP)引擎工作流；

图2是实现断词、句界限、缩写展开、标准化、概念提取组件的示例的NLP工作流；

图3是用于创建概念指纹(fingerprint)的示例NLP工作流；

图4是用于创建名词短语指纹的示例NLP工作流；

图5是用于创建命名实体指纹的示例NLP工作流；

图6是用于创建概念关联性指纹的示例NLP工作流；

图7是用于创建合格的概念关联性指纹的示例NLP工作流；

图8是用于创建名词短语和概念指纹的示例NLP工作流；

图9是智慧射击者游戏的屏幕快照(shot)；

图10是智慧射击者游戏的另一屏幕快照；

图11是智慧射击者游戏的另一屏幕快照；

图12是示例的联合搜索结果的屏幕快照；以及

图13是示例操作环境。

具体实施方式

在公开和描述本方法和***之前，要理解，这些方法和***不限于具体综合方法、具体组件或者具体构成。还要理解，在此使用的术语仅仅是为了描述特定实施例的目的，并且不意图是限制性的。

如在本说明书和所附权利要求书中所使用的，单数形式“一个”和“该”包括多个指代物，除非上下文明确另外指示。在此可以将范围表达为从“大约”一个具体值和/或到“大约”另一具体值。当表达这样的范围时，另一实施例包括从一个具体值和/或到另一具体值。类似地，当值被表达为近似值时，通过使用先行词(antecedent)“大约”，将理解该具体值形成另一实施例。将进一步理解，每个范围的端点在与另一端点的关系以及与另一端点的独立性两方面是重要的。

“可选的”或“可选地”意味随后描述的事件或情况可以发生或者可以不发生，并且该描述包括其中所述事件或情况发生的实例和其中所述事件或情况不发生的实例。

在此说明书的描述和权利要求书通篇，词语“包括”以及该词语的变型、比如“包括(动名词)”和“包括(单数)”意味着“包括但不限于”，而不意图排除例如其他添加、组件、整数或步骤。“示例的”意味“......的例子”而不意图传达优选或理想实施例的指示。“诸如”在此并不是以限制性意思使用而是用于说明的目的。

公开了可以用于进行所公开的方法和***的组件。这些和其他组件在此被公开，并且要理解，当公开这些组件的组合、子集、交互、组等时，尽管可能没有明确公开对这些的每个各种单独和集合的组合和变换的具体参考，但是在此具体预期到和描述每一个用于所有方法和***。这适用于本申请的所有方面，包括但不限于所公开的方法中的步骤。因此，如果存在可以进行的各种另外的步骤，则要理解，这些另外的步骤的每个可以与是公开的方法的任意具体实施例或者实施例的组合一起进行。

通过参考对优选实施例及其中包括的例子的以下详细描述并参考附图及其之前和以下的描述，可以更容易理解本方法和***。共同未决的美国专利申请号12/294,589(美国授权前公开号：2010-0049684，公开于2010年2月25日)和美国专利申请号12/491,825(美国授权前公开号2010-0017431，公开于2010年1月21日)在此通过被全部引用而合并于此。

在一个方面，确认的(validated)概念和确认的概念组可以是由人类专家编译的概念。概念是例如对象、类、属性和关联性(relation)的表示。所提供的方法和***可以区分定义了更一般的措辞和更具体的措辞之间的关系的关联性(广义措辞-狭义措辞)(例如，“动物”-“牛”，其中动物是广义措辞，牛是狭义措辞)。

在一个方面，确认的概念可以是对一个或几个词语的描述。概念、与概念有关的措辞(优选措辞和同义词)由主题专家定义，并因此与知识领域(例如医疗、法律等)有关并被证实。确认的概念、确认的概念组和知识简档可以具有或者可以被给予字母数字表示，其允许确认的概念、确认的概念组和知识简档迅速被比较和集群(cluster)。对确认的概念的字母数字表示的此选择可以提供语言独立性。例如，可以根据英语文本产生知识简档(以下描述)，并且可以通过字母数字表示在法语词库(thesaurus)(概念的编译)中搜索该英语知识简档中的确认的概念以产生法语知识简档。在另一例子中，英语知识简档可以用于使用字母数字表示来搜索法语知识简档的集合。在一方面，法语知识简档可以以英语表示，这允许用户得到对由知识简档表示的知识源的内容的印象，而不用查阅其原始语言的知识源。这允许独立于语言的知识发现。

确认的概念的编译可以被称为词库，并表示知识的领域或者知识的片段。词库可以具有顶层概念，该顶层概念具有相关的较下层或底层概念。例如，在医学科学中，疾病可以具有许多不同的名称，但是，通过选择具体疾病的名称和该疾病的所有不同的已知名称，避免了由于不能使用正确的关键词而遗漏相关信息的问题。一组各自矛盾的词语当它们一起出现在一段信息中时或者特别是当他们出现在彼此附近时，可以表示非常清楚地定义的概念。

词库可以由人类专家定义并且可以被加载到***中。词库可以以各种方式定义并且可以包括以下信息：级别号(顶级是0，更具体的级别是1，等等)；优选的措辞(该措辞应该用于与用户通信)；同义词(如果同义词是已知的，则可以添加它们)；以及概念号，其是被分配给该概念的唯一数字。

词库中的措辞可以被定义为“默认措辞”，其中概念将被标准化并且措辞中词语的顺序可以变化。在另一方面，词库中的措辞可以被定义为“非标准化的措辞”。这样的“非标准化的”措辞将不被标准化。例如，这在名称是措辞的一部分时是有用的。在另一方面，词库中的措辞可以被定义为“准确匹配的措辞”。在此方面，必须以与在词库中定义的完全相同的顺序发现准确匹配的措辞中的词语。例如这在像基因或者化学结构的符号被定义在词库中时是有用的。

在一方面，词库可以在结构化的数据文件中表示。如在此使用的，词库也指元词库(meta-thesaurus)。在辞典(thesauri)中，概念根据具有分级在其以下的更具体的概念的覆盖的或一般的概念的分层***而被分类。这得到分支到更具体的种类概念的更高的覆盖的属(genus)概念的类似树结构。

在一方面，结构化的数据文件可以表示一个或多个知识领域中的词库。为了使得能够迅速处理并改善对确认的概念的识别，结构化的数据文件中的词语可以是标准化的词语。在此方面，产生的知识简档内的信息可以被转换成标准化的词语的列表，在这之后，在结构化的数据文件中查找这些标准化的词语。

在一方面，提供了自然语言处理(NLP)工作流引擎来分析文本。该引擎可以将一个或多个独立的NLP组件(例如断词、词性标记、命名实体识别)组合成有意义的处理工作流。例如，概念提取可以是该引擎的一个工作流实例，并且名词短语产生或者实体识别可以是该引擎的其他实例。图1例示了示例的引擎工作流。组件C1-C5每个表示NLP处理中的具体任务。图2例示了实现断词、句界限、缩写展开、标准化、概念提取组件的工作流。可以被分析的文本数据库的例子包括但不限于Pubmed(生物医学出版物)、科学工程的信息的计算机检索(“CRISP”-搜索准予)、专利数据库、法律案件和条例数据库、诸如相关新闻、科学等的任何出版物数据库。

引擎的灵活性允许知识指纹(knowledge)的创建。知识指纹可以表示具体文档中的同一文本的许多不同的看法(view)。例如，看法可以包括概念提取、名词短语指纹、命名实体指纹、概念关联性指纹(“C1”传输“C2”)、量化的名词短语指纹等中的一个或多个。

处理组件可以基于引擎的工作流管理而使用。例如，可以使用词库组件。

可以使用断词组件。断词是基本NLP处理。断词组件可以将文本切割为语言的最基本的部分：词、标点、省略号、括号等。其是可以在对如像语形学、语法或语义分析的其他高级分析的准备中使用的组件。

可以使用句界限检测组件。在一方面，在应用可以标识标点的断词组件之后，可以应用句界限检测组件来检测语言的下一级有意义的部分即句子。句界限检测组件中的低准确度可以消极地影响其他高级分析。例如，在以下句子中的句点的位置处划分文本可能具有消极影响：“在2008年7月1日到2008年12月31日之间公司可以将营业额增加36.12％，得到8.2百万$的总收益”。代替8.2百万，将仅仅是2百万$，以及不是36.12％而是12％，这将非常不同。

可以使用缩写扩展组件。尤其是在生命科学世界，但同样在许多其他领域中，缩写是很常见的现象。Pubmed每年增长近似100,000个缩写和首字母缩拼(由各词的第一个字母组成)。该组件可以自动检测文本中的长短形式的组合，并且还可以利用持续增长的缩写字典。

可以使用标准化组件。标准化主要覆盖例如词向其标准型(women/woman、children/child、walking/walk)的滋生的语形学任务。词性标记

可以使用词性(POS)标记组件。词的POS表示其在文本中的语法功能。POS标记组件可以标识每个词的不同“角色”，比如名词、动词或形容词。在一方面，可以使用隐藏马尔可夫模型的实现。此方面可以使用训练集来“学习”用于调整词的角色的样式。

可以使用名词短语提取组件。此组件可以利用POS标记的结果并且可以将单个词或者各组词标识为有意义的短语。采样样式可以是“形容词/名词/名词”，例如“特别法庭决定”。名词短语可以在缺少适当词库的领域中起着重要角色。通过将这些提取与统计分析组合而应用于固态文档主体，将有助于半自动词库产生或者词库扩展。

可以使用概念提取组件。在一方面，此组件可以表示词库组件的主要任务。基于基本词库或者受控的词汇表，概念提取组件可以从给定文本中提取出词库概念或者词汇表项。

可以使用命名实体识别组件。此组件可以提取如像人名和机构名称、城市、国家、美元量、案件号、日期、电话号码、电子邮件地址等的标准命名实体。也可以提取如像蛋白质名称或者基因名称的更高的规律。

可以使用关联性提取组件。基于由命名实体识别组件和概念提取组件提供的信息，关联性提取组件可以处理(address)两个或更多实体或概念之间的关联性。与指示出现在相同文本中的两个概念/实体之间的松散关联性的“单纯的”同时出现相反，关联性提取组件可以检测限制的关联性，如像“A是B的变型”或者“A导致B”。关联性提取组件可以用于前提提取和产生。

可以使用量词(quantifier)检测组件。在许多情况下，未明确表达含义。像“肝炎X不是肝脏的疾病”的否定仅仅是量化(quantification)的一个实例。作者可以以混合的表达“在许多情况下药物B对疾病A具有积极效果”来量化其意见，量词检测组件可以检测并使用此量化信息来提取含义。

可以使用首语重复法方案组件。如像量化那样，不使用明确的名词，但是指的是该名词：“盘尼西林是药物。其帮助头痛的人们。”词语“其”表示“盘尼西林”，但是“盘尼西林”和“头痛”之间的关联性可以由首语重复法方案组件来检测。

在一方面，可以基于所选工作流产生一个或多个不同的知识指纹。图3-7例示可以产生得自文本的不同类型的知识指纹的各种工作流。图3例示了通过断词组件、句界限组件、缩写展开组件、标准化组件处理文本，得到了概念指纹。图4例示了通过断词组件、标准化组件、缩写展开组件、词性组件和名词短语提取组件处理文本，得到了名词短语指纹。图5例示了通过断词组件、词性组件、缩写展开组件、名词短语提取组件和命名实体识别组件处理文本，得到了命名实体指纹。图6例示了通过断词组件、词性组件、缩写展开组件、名词短语提取组件、概念提取组件和关联性提取组件处理文本，得到了命名实体指纹。图7例示了通过断词组件、词性组件、量词检测组件、名词短语提取组件、概念提取组件和关联性提取组件处理文本，得到了量化的概念关联性(QCR)指纹。

可以将一个或多个工具与在此提供的工作流一起使用。例如，在大文本主体和文档库的海量处理以及汇集的数据的统计分析的区域中。

可以使用概念候选者发生器工具。在一方面，此工具可以利用名词短语提取工作流。此工具可以从具体领域(例如物理学、建模、破产)的文本主体中提取名词短语的列表，并将此列表以适当的格式存储用于统计分析。统计分析的结果可以是领域专有名词短语的适当列表，其可以用作“第一代”受控的词汇表，或者用作领域词库的开始点。概念候选者发生器可以用于通过将候选者与现有概念相比较并通过在名词短语提取期间的并行概念提取来产生候选者列表以扩展现有词库。利用所公开的方法和***的灵活性，可以通过向如图8所示的名词短语工作流添加概念提取组件来实现此并行概念提取。

可以使用概念关联性发生器。此工具可以基于更大领域专有文本主体来分析概念之间的关联性。人们表达在其出版物、法律案件、书籍等中的关联性，使得理论上极大的信息主体包含领域本体论(ontology)的所有信息。杠杆影响此信息是概念关联性发生器的主要功能性。统计分析可以应用于此结果。

在一方面，提供了从在此所述的工作流得到的数据的各种应用。在一方面，提供了关联游戏，在此称为“智慧射击者”。智慧射击者可以处理研究者对玩游戏的吸引力、创造性及其用于关联事物的持续推动力。该游戏具有高度智力要求，并且可以关注于研究者所生活的科学世界，将其作为他/她自己的专门知识，如像“骨瘤”，或者将其作为另一专家智慧，如像教授或者会议上的演讲者。

如前所述，可以对所有Pubmed记录，对于每个标题以及摘要的每个句子产生Pubmed指纹集。在句子或甚至标题中一起提到的概念可以被认为具有高度关系并且可以被看作是某人在文章中所做出的关联。此数据可以用于产生许多对概念，例如疾病-药物或者药物-药物和/或疾病-疾病。

可以首先要求玩家通过选择概念例如“骨瘤”或者通过选择专家例如教授Karl-Heinz Kuck来定义科学领域。另外，玩家可以选择从“容易”到“困难”的难度级别。***可以产生概念对列表。另外，***可以产生以前在Pubmed中从未关联过的、但是与用户的选择有关的对的第二列表。可以要求用户标识哪些关联是“建立的”，意味着是在至少一个出版物中发现的，以及那些是***构造的。图9例示了示例的屏幕快照。

图10例示了其中要求用户预测在哪个时间点做出了关联的变型。图11例示了其中基于其教授的知识向学生问问题的屏幕快照。在已经标识了正确答案后，可以为用户提供关于关联的背景信息。例如，引用信息、相关专家等。在一方面，可以在移动设备上使用该游戏。

概念信息、关联性、连接和许多其他数据的可视化在用户经验中起着作用。利用生物医学专家的网络查看器以及Geo查看器的经验已示出在市场中可以产生多少关注。可视化例子包括但不限于趋势可视化、社交网络、词库和本体论可视化、世界地图、国家地图和网络集群。

在另一方面，各方法和***可以实现联合搜索。用户可以键入搜索查询并且联合搜索引擎可以在后台访问一系列其他搜索引擎或数据库并返回包括摘要或第一段的限定数量的在前结果。概念提取器可以使用递交的文本来提取词库概念。然后可以用标识的概念来充实搜索的结果页，并且将结果页组织在词库结构中。示例的屏幕快照示出在图12中。

在另一方面，各方法和***可以实现评论者查找器应用。利用专家数据和geo分析数据的大网络，评论者查找器允许使用基于概念指纹的相似性搜索标识专家。例如，各方法和***可以为准予的提案产生概念指纹，并且使用该概念指纹进行搜索以寻找具有类似专门知识的评论者。还能够标识不同种类的感兴趣的冲突。如果潜在评论者是申请者的直接或间接合著者，或者如果他们在相同位置活动，则可以检测冲突。该模型也适用于出版物对等评论处理。

在另一方面，各方法和***可以实现意见领袖查找器应用。意见领袖查找器应用可以基于某个概念指纹标识具体领域中的关键研究者。可以通过时间线分析来扩展此功能性以标识“早期领袖”或者“早期发明人”。

图13是例示用于进行公开的方法的示例操作环境的框图。此示例操作环境仅仅是操作环境的例子，并且不意图对操作环境架构的使用范围或功能性提出任何限制。也不应将该操作环境解释为具有任何与在该示例操作环境中所述的任意组件或其组合的依赖性或与其有关的要求。

本方法和***可以利用许多其他通用或专用计算***环境或配置来操作。可以适合于与各***和方法一起使用的公知的计算***、环境和/或配置的例子包括但不限于个人计算机、服务器计算机、膝上型设备和微处理器***。例外的例子包括机顶盒、可编程消费者电子产品、网络PC、迷你计算机、主机计算机、包括任意的以上***或设备的分布式计算环境等。

所公开的方法和***的处理可以由软件组件进行。所公开的***和方法可以在由一个或多个计算机或其他设备执行的诸如程序模块的计算机可执行指令的一般背景下描述。通常，程序模块包括进行特定任务或者实现特定抽象数据类型的计算机代码、例程、程序、对象、组件、数据结构等。所公开的方法还可以在其中任务由通过通信网络链接的远程处理设备进行的基于栅格的分布式计算环境中实践。在分布式计算环境中，程序模块可以位于包括存储器存储器件的本地和远程计算机存储介质中。

此外，本领域技术人员将认识到，在此公开的***和方法可以经由计算机1301形式的通用计算设备实现。计算机1301的组件可以包括但不限于一个或多个处理器或处理单元1303、***存储器112和将包括处理器1303的各种***组件耦合到***存储器112的***总线113。在多个处理单元1303的情况下，该***可以利用并行计算。

***总线113表示几种可能类型的总线结构中的一个或多个，包括使用各种总线架构中的任意一种的存储器总线或者存储器控制器、***总线、加速图形端口和处理器或本地总线。作为例子，这样的架构可以包括工业标准架构(ISA)总线、微信道架构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)本地总线、加速图形端口(AGP)总线和***组件互连(PCI)、PCI-快速总线、个人计算机存储卡工业协会(PCMCIA)、通用串行总线(USB)等。总线113和在此说明书中指出的所有总线也可以在有线或无线网络连接上实现，并且包括处理器1303、海量存储器件1304、操作***1305、工作流软件1306、工作流数据1307、网络适配器1308、***存储器112、输入/输出接口110、显示器适配器1309、显示设备111和人机接口1302的每个子***可以通过此形式的总线连接而被包含在一个或多个远程计算设备114a、b、c内物理上分离的位置处，有效实现全分布式***。

计算机1301通常包括各种计算机可读介质。示例的可读介质可以是可由计算机1301访问的任意可得的介，并例如而非意图限制地包括易失性和非易失性介质、可移除和不可移除介质。***存储器112包括易失性存储器形式的计算机可读介质(比如随机存取存储器(RAM))和/或非易失性存储器(比如只读存储器(ROM))。***存储器112通常包含诸如工作流数据1307的数据和/或对于处理单元1303可立即访问或者当前有处理单元1303操作的诸如操作***1305和工作流软件1306的程序模块。

在另一方面，计算机1301还可以包括其他可移除/不可移除、易失性/非易失性计算机存储介质。通过例子，图13例示可以提供计算机代码、计算机可读指令、数据结构、程序模块和计算机1301的其他数据的非易失性存储的海量存储器件1304。例如而非意图限制，海量存储器件1304可以是硬盘、可移除磁盘、可移除光盘、磁带或者其他磁存储器件、闪存卡、CD-ROM、数字通用盘(DVD)或者其他光存储器、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)等。

可选地，任意数量的程序模块可以被存储在海量存储器件1304上，通过例子包括操作***1305和工作流软件1306。操作***1305和工作流软件1306的每个(或其某些组合)可以包括编程的元件和工作流软件1306。由处理器1303执行的工作流软件1306可以包括工作流引擎。工作流数据1307还可以被存储在海量存储器件1304上。工作流数据1307可以存储在本领域已知的一个或多个数据库的任意一个中。这样的数据库的示例包括

Access，SQL Server，

mySQL，PostgreSQL等。数据库可以是集中式或分布在多个***上。

在另一方面，用户可以经由输入设备(未示出)将命令和信息键入计算机中。这样的输入设备的例子包括但不限于键盘、指示设备(例如鼠标)、麦克风、操纵杆、扫描仪、诸如手套和其他身体覆盖物的触感输入设备等。这些和其他输入设备可以经由耦合到***总线113的人机接口1302连接到处理单元1303，但是可以通过诸如并行端口、游戏端口、IEEE1394端口(也已知为火线端口)串行端口或通用串行总线(USB)的其他接口和总线结构连接。

在另一方面，显示设备111经由诸如显示器适配器1309的接口连接到***总线113。预期计算机1301可以具有多于一个显示器适配器1309，并且计算机1301可以具有多于一个显示设备111。例如，显示设备可以是监视器、LCD(液晶显示器)或投影仪。除了显示设备111之外，其他输出***设备可以包括可以经由输入/输出接口110连接到计算机1301的诸如扬声器(未示出)和打印机(未示出)的组件。方法的任意步骤和/或结果可以以任意形式输出到输出设备。这样的输出可以是任意形式的视觉表示，包括但不限于文本、图形、动画、音频、触感等。

计算机1301可以工作在使用到一个或多个远程计算设备114a、b、c的逻辑连接的联网环境中。通过例子，远程计算设备可以是个人计算机、便携式计算机、服务器、路由器、网络计算机、对等设备或者其他公共网络节点等。计算机1301和计算设备114a、b、c之间的逻辑连接可以经由局域网(LAN)和一般广域网(WAN)进行。这样的网络连接可以通过网络适配器1308。网络适配器1308可以实现在有线和无线环境中。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网115中是传统的和普通的。

为了例示的目的，在此将诸如操作***1305的应用程序和其他可执行程序组件例示为离散的块，尽管其被组织为这样的程序和组件在各个时间存在于计算设备1301的不同存储组件中并由计算机的数据处理器执行。工作流软件1306的实现方式可以被存储在某种形式的计算机可读介质上或者经过某形式的计算机可读介质传输。任意的所公开的方法可以由体现在计算机可读介质上的计算机可读指令来进行。计算机可读介质可以是可以由计算机访问的任意可得到的介质。作为例子而非意图限制，计算机可读介质可以包括“计算机存储介质”和“通信介质”。“计算机存储介质”包括在用于诸如计算机可读指令、数据结构、程序模块或其它数据的信息的存储的任意方法或技术中实现的易失性和非易失性、可移除和不可移除介质。示例的计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或者其他光存储器、磁盒、磁带、磁盘存储器或者其他磁存储器件、或者可以用于存储期望的信息并且可以由计算机访问的任何其他介质。

各方法和***可以采用诸如机器学习和重复学习的人工智能技术。这样的技术的例子包括但不限于专家***、基于情况的推理、贝叶斯网路、基于行为的AI、神经网络、模糊***、进化计算(例如遗传算法)、群智能(例如蚂蚁算法)和混合智能***(例如通过神经网络产生的专家推论规则或者来自统计学习的生产规则)。

尽管已经结合优选实施例和具体例子描述了各方法和***，但是不意图将范围限制到所述的具体实施例，因为在此的实施例意图在所有方面是例示的而非限制性的。

除非另外明确表述，绝不意图将在此所述的任意方法理解为要求其步骤按照具体顺序执行。因而，在方法权利要求没有实际列出其步骤要依照的顺序或者没有在权利要求或说明书中例外具体陈述各步骤将被限制到具体顺序的情况下，绝不意图在任意方面推断顺序。这对用于解释的任何可能的非明确基础都成立，包括：关于步骤或可操作流的布置的逻辑的事件；从文法组织或者标点得出的原本意思；在说明书中描述的实施例的数量或类型。

在本申请通篇，参考了各种出版物。通过引用这些出版物其全部的公开将并入此申请中以便更全面地描述各方法和***所属于的领域的状态。

对本领域技术人员将显而易见的是，不脱离范围或精神可以做出各种修改和变更。通过考虑在此公开的说明书和实践，其他实施例对本领域技术人员来说将是显而易见的。意图将此说明书和例子仅仅当作是示例性的，真实范围和精神由以下权利要求指示。

Claims

1.一种文本分析的方法，包括：

使用包括工作流引擎的处理器分析文本，其中所述工作流引擎至少包括词库组件，所述词库组件包括与知识领域有关的词的结构化数据文件；

使用所述分本分析创建文本的知识指纹。

2.如权利要求1的方法，其中所述工作流引擎包括一个或多个另外的组件。

3.如权利要求2的方法，其中所述一个或多个另外的组件可以包括断词组件、句界限检测组件、缩写展开组件、标准化组件、词性(POS)标记组件、名词短语提取组件、概念提取组件、命名实体识别组件、关联性提取组件、量词检测组件或者首语重复法方案组件中的一个或多个。

4.如权利要求3的方法，其中由所述工作流引擎创建一个或多个不同的知识印记。

5.如权利要求3的方法，其中由包括所述工作流引擎的每个组件创建不同的知识印记。

6.如权利要求1的方法，其中所述词库组件包括被组织成与知识领域有关的词的结构化数据文件的、表示知识领域或者知识片段的确认的概念的编译。

7.如权利要求1的方法，其中所述词库组件包括与知识领域有关的标准化的词的结构化数据文件。

8.一种用于文本分析的***，包括：

存储器；以及

处理器，可操作地与所述存储器连接，其中所述处理器被配置为

使用工作流引擎分析文本，其中所述工作流引擎至少包括词库组件，所述词库组件包括存储在所述存储器中的与知识领域有关的词的结构化数据文件；以及

使用所述分本分析创建文本的知识指纹。

9.如权利要求8的***，其中所述工作流引擎包括一个或多个另外的组件。

10.如权利要求9的***，其中所述一个或多个另外的组件可以包括断词组件、句界限检测组件、缩写展开组件、标准化组件、词性(POS)标记组件、名词短语提取组件、概念提取组件、命名实体识别组件、关联性提取组件、量词检测组件或者首语重复法方案组件中的一个或多个。

11.如权利要求10的***，其中由所述工作流引擎创建一个或多个不同的知识印记。

12.如权利要求10的***，其中由包括所述工作流引擎的每个组件创建不同的知识印记。

13.如权利要求8的***，其中所述词库组件包括被组织成与知识领域有关的词的结构化数据文件的、表示知识领域或者知识片段的确认的概念的编译。

14.如权利要求8的***，其中所述词库组件包括与知识领域有关的标准化的词的结构化数据文件。

15.一种计算机程序产品，包括至少一个非暂时计算机可读存储介质，该计算机可读存储介质具有存储在其中的用于文本分析的计算机可读程序代码部分，所述计算机可读程序代码部分包括：

第一部分，用于使用包括工作流引擎的处理器分析文本，其中所述工作流引擎至少包括词库组件，所述词库组件包括与知识领域有关的词的结构化数据文件；和

第二部分，使用所述文本分析创建文本的知识指纹。

16.如权利要求15的计算机程序产品，其中所述工作流引擎包括一个或多个另外的组件。

17.如权利要求16的计算机程序产品，其中所述一个或多个另外的组件可以包括断词组件、句界限检测组件、缩写展开组件、标准化组件、词性(POS)标记组件、名词短语提取组件、概念提取组件、命名实体识别组件、关联性提取组件、量词检测组件或者首语重复法方案组件中的一个或多个。

18.如权利要求17的计算机程序产品，其中由所述工作流引擎创建一个或多个不同的知识印记。

19.如权利要求17的计算机程序产品，其中由包括所述工作流引擎的每个组件创建不同的知识印记。

20.如权利要求15的计算机程序产品，其中所述词库组件包括被组织成与知识领域有关的词的结构化数据文件的、表示知识领域或者知识片段的确认的概念的编译。

21.如权利要求15的计算机程序产品，其中所述词库组件包括与知识领域有关的标准化的词的结构化数据文件。