CN1752966A - 使用本体论和用户查询处理技术解决问题的方法 - Google Patents

使用本体论和用户查询处理技术解决问题的方法 Download PDF

Info

Publication number
CN1752966A
CN1752966A CN 200410078337 CN200410078337A CN1752966A CN 1752966 A CN1752966 A CN 1752966A CN 200410078337 CN200410078337 CN 200410078337 CN 200410078337 A CN200410078337 A CN 200410078337A CN 1752966 A CN1752966 A CN 1752966A
Authority
CN
China
Prior art keywords
methods according
formula
semantic
ontology
user search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200410078337
Other languages
English (en)
Other versions
CN100361126C (zh
Inventor
张国明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YIWEIXUN SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Original Assignee
YIWEIXUN SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YIWEIXUN SCIENCE AND TECHNOLOGY Co Ltd BEIJING filed Critical YIWEIXUN SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Priority to CNB2004100783370A priority Critical patent/CN100361126C/zh
Publication of CN1752966A publication Critical patent/CN1752966A/zh
Application granted granted Critical
Publication of CN100361126C publication Critical patent/CN100361126C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明描述了在一个语义处理模块中,基于本体论方法对数据/知识进行表示和处理,从而解决技术问题的一种***,方法和计算机程序。语义处理模块的基本部件包括一个语义知识库,一个本体论知识库,和/或一个专家知识库。被解决的问题可以包括一个用户技术问题或者一个发明问题。所述方法包括存贮一个结构化描述的或者非结构化描述的用户检索式,对非结构化的检索式进行语义分析形成检索式的一种正式语义表示式,对正式的语义检索式进行语义扩展,扩展后的检索式用于在专家知识库中查找相关的解决方案,并且根据语义关系对找到的解决方案进行分类。

Description

使用本体论和用户查询处理技术解决问题的方法
技术领域
本发明涉及对问题的自动求解,更特别的是,使用信息和知识表示和处理的语义方法进行问题求解。
背景技术
解决用户技术问题首先需要良好的技术支持,即可操作地获取信息和知识库,这能回答如何解决问题,或者帮助提供涉及问题求解的信息,例如利用其它知识领域的问题,或者同一***中其它类型的问题。这能为用户指出解题的方向。传统上,基于计算机的信息检索是由搜索引擎完成的。
在不复杂的信息检索***中,通过检索数据库文本中包含的关键词(由用户输入)完成检索。这种检索的特征是精确度低、查全率低。现代信息检索***应该为用户提供形成自然语言检索式的可能性,即***应该有自然语言的用户界面。然后,对检索式进行自动的语言分析,生成正式的表达式。语言分析可以在自然语言不同深度的层次上完成。这种分析,在理想的情况下,应该包括语义层次的分析。重要的是不仅要认识到检索式中不同元素之间的关系(通常是最信息最丰富的元素),而且要认识到检索式中的元素和外部世界或者一定的知识领域中的对应元素之间的关系。这就需要使用概念之间的语义关系,例如像在知识描述中表述的辞典或者本体论,以在各种应用中在不同的方式下改善信息检索***的表现。
本体论是一种分层的词法结构,其中用词和词的组合定义的概念彼此之间存在着语义关系。依据所描述的词和试图反映的关于特定领域和周围世界的人的知识,本体论可以是特定领域的,也可以是通用的。由于本体论代表了一个有价值的和可扩充的数据集合,在信息检索中可以使用本体论来改善检索的精确性。
美国专利US6675159B1描述的信息检索***,使用基于本体论的谓词结构来索引收集的文档。这个专利所述的***只能根据用户检索式返回完全匹配这些概念的文档。这个***也有一定的基于本体论的检索能力,它能从本体论中检索逻辑结构的词组。例如检索式是“Whatis the current situation of the stock market?”,一个属性提取器提取出直接的属性“current”、“situation”、“stock”、“market”,属性提取器也可以使用包含分层概念的本体论,将属性“stock”扩展到“finance”、“banks”、“brokerages”、“Wall Street”等等。
美国专利US5940821所描述的知识检索和搜索***,和美国专利US6460034B1所描述的基于知识的相关文档检索和搜索***,使用知识库进行文档主题词的识别(从文档的名词术语推出主题词)和文档的分类,所述的知识库存贮了具有词法、语义、或者用法关联的名词/种类之间的关联。可以在知识库的帮助下通过扩展检索词语和主词检索出一个检索式的相关文档。所述***包括事实知识库检索式和概念知识库检索式。事实知识库检索式确定一个检索式的相关主词、和为这些主词分类的文档。形成对比的是,概念知识库检索式通过显示相关种类和主词确定了潜在的文档。
上述两个专利的***包括一个语言引擎,一个知识分类处理器,一个主词矢量处理器,和一个词态学部分。所述的语言引擎,包括一个词法分析器和一个主词分析器,不仅分析所述文档集合的词法或者上下文观点,也分析每篇文档体裁和主题的属性。特别是,语言引擎生成了每篇文档的上下文标记、主题标记、和体裁标记等作为输出的一部分。
上述两个专利的知识库用来生成检索式词语的扩展集合,所述的扩展集合用于选择附带的文档。为了使用知识库来扩展检索式的词语,分类层的级别和知识库的关联用于在预定的规则内选择节点。在一个实施例中,基于举例加权,检索式的词语强度被降低,例如对词法举例上的每个点,当扩展到一个更一般的种类或者关联时,检索式的词语加权被降低50%。最后选择检索式词语加权大于一的所有节点。并且选择一个节点下的所有子种类和词语。
然而,上述两个专利所述的***主要基于主词矢量识别法。所述***需要检索数据库中的文本按照特别的上下文标记、主词标记和体裁标记进行索引,基于本体论的词语扩展根据主词矢量检索附带的文档。
传统上本体论也应用于数据库管理***。在国际专利申请WO2003/030025A1中,所述的数据库管理***使用本体论解决语义不同的问题、语义不匹配的问题、和分布式资源下的检索式集成问题。语义不同问题的解决方案是正式地指定使用本体论(共享的或者私人的)的每个***中的词语的含义。这样,这个专利所述的***为具有多个数据库资源的网络提供了一个分布式的检索式解决方案。所述网络帮助用户从多个资源库进行检索和整理数据,这些资源库可以是例如SQL或者XML数据库等等。
因此,上述专利所述的***在从不同的信息资源检索信息时消除了含糊词语的歧义。
在美国专利US2002/0107844A1中,在信息生成和检索***中将本体论作为一个工具,用概念图的形式帮助建立句子的语义表示。在信息检索过程中,经过分析用户输入的自然语言的检索式的句子结构和语义结构,将其转换为概念图,然后在数据库中检索最接近的概念图显示给用户。
这样,在信息检索中应用本体论暗示着建立概念关系图,并比较检索式和数据库的概念图。
美国专利US6498795B1描述的主动信息发现和检索***,使用一个主动的网络架构和基于本体论的信息分层来结构化语义和自动进行信息捆绑,并提供对称的信息框架来过滤信息和在网络中进行绑定。检索式被直接路由到相关的信息源,并且信息被分布到有利的目的地。
上述专利暗示在主动网络的每个节点上生成一个内容本体论距离树和检索式本体论距离树。使用主动的网络架构和基于本体论的信息分层分别作为网络和语义框架。***使用简单超文本标记语言(HTML)的本体论扩展(SHOE)。当一个SHOE距离使得一个特别的要求基于一个特别的本体论时,软件可以自动地由特定的本体论推出不是直接表述的知识。本体论提供了到暗含知识的扩充。SHOE标记允许定义新的基于扩充的本体论。检索的操作模型应用到本体论距离树子层的任一部分上。经过计算特别的系数来决定本体论中子节点和父节点相关的可能性。
因此,上述专利使用语义结构检索信息,这暗示着给信息源加上本体论标记(自动或者手动地使用SHOE),然后才可能根据SHOE标记基于本体论关系检索信息。
在美国专利US2002/0116169A1中,描述了对字符串生成归一化表示的方法和装置。在此使用本体论、辞典、和术语数据库作为归一化的装置。
上述专利试图增加信息检索***的检索特性,特别是使用本体论来归一化地表示检索式和数据库的字符串。
美国专利US2003/0177112描述了一种基于本体论的信息管理***和方法,在结构化的数据源和非结构化的数据源之间使用本体论提供语义匹配,并且包括生成、合理化、审查、联合等过程来满足生命科学、信息化、以及其它原则的要求。该专利建议使用本体论来有效激活条目之间的词法和语义匹配。
上述专利使用能够对大文档集合进行归类的信息检索引擎,来评价一对信息之间的空间距离。
上述专利所述的方法主要来源于基于本体论的信息源管理,这有助于集成结构化和非结构化的数据。信息源是生成新本体论的来源。信息检索引擎基于对数据的分类。
本体论也用于检索式的扩展。在美国专利US5822731中,在检索中使用语义网络来最大化相关文档的数量,将检索式中每个检索词进行相关扩充来扩充检索式。
在美国专利US2001/0003183A1中,描述了一种在知识库中检索的方法和设备。本体论是这个***的一个集成部分。检索模板库和与很抽象的概念相关的关键词的辞典用计算机***来表示。每个模板包含一个或者多个类型变量。通过在***中输入一个或者多个关键词就可以生成一个检索式。每个关键词被抽象为概念(使用不同的辞典和本体论)。经过附加的抽取、从几个候选概念中选择一个概念、或者连续地提取或者拒绝不同的关键词直到发现一个可接受的概念,来进一步提炼每一个概念。接着,对于所得到的概念,通过使用这些概念或者关键词找到所有的检索模板。用户然后选择最恰当的检索式。应用这个专利所述的***可以形成接入任何信息源集合的检索式。这个专利所述的***特别适用于哪些分布式接入、不同质的数据库***,这些***没有一个单一的标准化的单词或者结构。
实际上,上述后三种方法表示了使用不同变量的本体论装置的关键词检索扩展。
日本专利JP2000222436描述了一种使用本体论支持的信息检索方法和设备。所述方法能够为用户输入的检索信息选择不同的数据库的选择菜单。这个专利所描述的本体论将数据库作为树形结构的信息源管理起来,从高层到低层,数据库选择菜单也智能地从高程度的抽象到低程度的抽象。简单地说,这个专利建议使用本体论来反映数据库的内容,帮助用户提炼或者通用化一个概念。
美国专利US20020147578A1描述了一种检索信息的检索式形成***。该***使用语义或者词法信息消除一个或者多个无关的词语,重新形成一个检索式,并基于重新形成的检索式在信息库中进行检索。对每个问题的处理使用了很多相关的字典、辞典和本体论。
在此,使用本体论消除无关的词来重新形成一个检索式。
美国专利US6363378B1描述的信息检索***使用本体论对检索反馈进行排序。所述的信息检索***处理检索式,识别与检索式相关的主题以及检索反馈结果的主题,然后链接这些主题到知识库中的相关节点。至少基于主题从知识库中选择一个主节点,然后判定主节点和检索反馈节点之间的概念近似度。在此使用本体论中的分层关系来计算语义近似度。最后根据概念近似度对检索结果进行排序。
上述专利使用本体论进行知识库和检索式中的主题识别,并进行语义近似度的计算。
因此,使用本体论来改善信息检索***特性的想法并不是新的;它已经在各种专利中以各种形式予以公开。例如,已经公开了使用不同的方法来检索结构化和非结构化的数据库、识别文档的主题或者主词、字符串语义表示的归一化、不同类型数据的检索和集成、检索式的扩展等等。就目前使用本体论对检索式扩展而言,一般来说使用本体论扩展基于关键词和基于概念的检索,以及在特定知识领域使用本体论的分层关系。
发明内容
本发明的一个实施例包括一种***、方法、或者计算机编程产品,它们能够基于数据/知识表示和处理的语义方法,解决但不局限于发明问题或者用户的问题,实现语言处理模块。在一个实施例中,这个模块的基本部件可能包括一个语言知识库(KB)、一个本体论知识库、和/或一个专家知识库。
根据本发明的一个实施例,所述的语言知识库能够提供一个用户检索式的语言分析和它正式的语义表示——Verb(动词)-Parameter(参数)-Object(对象)(VPO),也称为“一个技术功能”,这也是问题的一种正式特性。
本体论知识库可能包含周围世界的一定知识,用不同知识领域的许多词语(概念和动词)以及这些词语之间的语义关系来表示,例如:同义关系、种属关系、以及关联关系。
在本体论知识库的帮助下语言处理模块能够完成语义扩展。语言处理模块提供了信息检索的最大的取回和精确性,对一个特定问题的检索能够找到解决方案和类比的解决方案,在处理上述这类任务时这是非常重要的。除此之外,用户也可能基于本体论知识库中词语的近似程度改变语义扩展的程度。
一个实施例中的专家知识库,是为解决技术问题的解决方案知识库,来源于许多文本文档,主要来源于专利和论文。这些解决方案表示为SVPO(主词-动词-参数-对象)格式,在此S是主词,或者说是VPO所定义的技术功能的解决方案。通过比较语义扩展后的检索式和专家知识库中的解决方案,语言处理模块能够确定特定检索式的解决方案(包括类比解决方案)。在一个实施例中,语言处理模块的输出是根据语义排列的这些解决方案。结果是,用户可以得到检索式的精确(precise)方案、特例(particular)方案、通用(general)方案、和类比(analogous)方案。
根据本发明的一个实施例,语言处理模块能为用户的检索式提供一种有效的解决方案,通过语言、本体论、专家知识库、以及一系列语义方法编辑工具实现了信息/知识的处理。
本体论的使用大大改善了信息检索***的特性,这些***处理主要的信息载体介质——文档:
能够提供对用户检索式正确的语义分析;
能够使用本体论扩展检索式中每个重要的词;和/或
本体论能够反映完成上述任务所需要的知识领域概念和关系。
因此,我们的方法区别特征在于:
1 一种基于语言处理文档(主要是专利)的新方法,用来解决但不局限于发明问题和用户技术问题;
2 根据第1点,语言处理模块提供:
a)以VPO格式表示的正式问题;
b)基于本体论的对正式问题表示的语义自动扩展;
c)专利收集的自动语义索引;
d)根据上述(2)(a)和(2)(b)自动检索精确解;和/或
e)自动检索更通用的问题、更特殊的问题、和类比问题的精确解。
3 所述的本体论技术是通用的,因为:
a)本体论可以应用到任何知识领域;
b)本体论反映了主要语义分类的语义关系,包括概念、它们的属性和动作;
c)本体论反映的语义分类之间的主要语义关系包括:
主要的属性关系;
同义关系;
分层关系;和
关联关系;
d)本体论具有管理语义分类之间关系深度的机制;和/或
e)本体论对用户是开放的,即可以提供对本体论进行编辑的技术。
因此本发明的实施例,实际上能够对发明家的专业活动提供有效的支持,并且可以帮助典型用户解决问题。
本发明更多的特征和优点,以及本发明各种实施例的结构和操作,在下文中结合附图进行详细描述。
附图说明
本发明的上述和其它特征、优点通过附图所示实施例的描述将变得非常明显。附图中,相同的编号表示相同的、功能相似的、或者结构相似的元素。
图1表示根据本发明的一个实施例,用于解决发明问题和用户技术问题的语言处理模块的结构和功能框图;
图2表示根据本发明的一个实施例,概念的本体论知识库的一个例子片段;和
图3表示根据本发明的一个实施例,语言处理模块执行扩展功能的结构和功能框图。
具体实施方式
发明问题和用户技术问题的语言处理模块概述
本发明的一个实施例提供了一种解决问题的方法。在一个实施例中,语言处理模块(LPM),和体现感兴趣的一定领域的实体之间的自然语言和关系的多组件的知识库(KB),提供对用户输入的结构化和非结构化检索式的高品质的理解,并提供发现最精确的和最完全的相关解决方案的搜索技术。
图1是根据本发明的一个实施例,解决用户技术问题和发明问题的语言处理模块的结构和功能框图。如图所示,图1中的LPM接收一个用户检索式104。使用语言知识库132,LPM处理用户检索式(108),生成检索式的正式表示式。接着,使用LPM的本体论知识库136对给定的检索式执行语义扩充(116)。得到的多种检索模式输入到LPM的检索模块120中。使用一个专家知识库140,LPM确定解决对应问题的所有可用的解决方案,根据相关度对这些解决方案进行排序(124),并罗列所有的解决方案(128)。
在一个实施例中,语言知识库132可以包含,但不限于,分析的规则,词形还原辞典,语言逻辑,和名词词组的分类。
知识库136可以是不同知识领域的一个词语分层数据库。在此使用的“词语”这个词表示一个概念(词语-概念)和一个动词(词语-动词)。在描述本体论数据库的结构和内容之前,需要进行下述定义:
同义词——在给定的上下文中表示相同含义的两个词或者两个词法结构之间的语义关系。
例如:“alter”,“change”,“modify”,“Vary”等。
直接同义词-与上下文无关的、具有相同(相近)含义的词或者词法结构。
例如,“water”,“aqua”等。
句法同义词-表示相同(或者相近)含义的不同的词法结构。
例如,“to heat”,“to increase temperature”。
种属关系(父类关系/子类关系)-是给定一组概念的父类概念/子类概念的两个词或者两个词法结构之间的语义关系。
例如,“oxygen”->“gas”,“increase”->“change”,“temperature”->“parameter”。
关联关系-彼此之间有关联关系的两个词或者两个词法结构之间的语义关系。它们被称为“兄弟/姐妹”关系,它们具有相同的“父类关系”,它们都是同一“父类概念”的“子类概念”。
动词-参数-对象(VPO)-问题的正式表示式。动词在此表示一个技术功能要被改善;参数(也可能没有参数,这种情况下只称为VO)表示技术***或者其中的一个元件的一种特殊特性;对象表示涉及的技术功能或者过程的一个技术***或者其中的一个元件。
例如:
问题是:How to increase temperature of water(如何增加水的温度)?
VPO:V(increase)P(temperature)O(water)。
主语词(Subject-S)——是VPO结构定义的问题的解决方案。
例如:
Fire increase temperature of water
SVPO:S(Fire)V(increase)P(temperature)O(water)
主要的词——名词词组中定义整个名词词组词法特性的特定词。
例如:
名词词组:cold water;
主要的词:water。
词形还原——从一个词的词形变化中生成原始的词形。动词的原始词形是不定动词,名词的原始词形是单数形式。
例如:
动词:“moving”->“move”;
名词:“cars”->“car”。
同义集合——同义词语(动词或者名词)的一组集合。
例如:
同义集合:“marine vessel”,“vessel”,“watercraft”。
同义词扩展——将一个词扩展为同义词法元件集合的功能。
例如:
将“vessel”扩展为“marine vessel”,“watercraft”;
将“heat”扩展为“increase temperature”。
种属扩展——将一个词扩展为更通用含义(上位含义)或者更特殊含义(下位含义)的词法元件组合的功能。
例如:
将“marine vessel”扩展为“craft”(更通用的含义);
将“marine vessel”扩展为“craft”,“ice yacht”,“scooter”等等(更特殊的含义)。
关联扩展——将一个词扩展为相近含义的词法元件组合的功能。
例如:
“regularization”和“regulation”、“quality control”、“restraint”等等相关。
本体论中的词语根据下述关系进行分组:
1)“同义”关系,包括:
1a)“直接同义”关系;
1b)“句法同义”关系;
2)“种属”关系(父类关系/子类关系):
3)“相关”关系。
其中,(1a)、(2)、(3)是名词词组的特性;(1a)、(1b)、(2)是动词词组的特性。
关系(1b)表示下述同义关系:
动词1(Verb1)=动词2(Verb2)+参数(parameter)。
例如:
moisten=augment humidity;
heat=increase temperature。
为了丰富本体论数据库136,根据本发明开发了一种特别的基于计算机的工具,它能自动进行领域知识专家文献资料的分析。
图2描述了从本体论概念知识库136中截取的一段树形图200。除了节点244、252、260之外,树形200中的每个节点中的多个词组之间是(1a)关系;树形图200中的线段表示类型(2)关系。这样,节点248中任何一个词都是节点244中任何一个词的父类关系。最后,同一层次上的一个节点和另一个节点之间词组具有类型(3)的关系。例如,节点252上的唯一词组和节点256/260/264上的任一词组之间就是关系(3)。
图1中的专家知识库140是从自然语言文件(专利、论文等等)中提取出来的技术解决方案知识库。专家知识库140只能被搜索模块使用。每个解决方案的标题都是用一个自然语言的句子表示,包括4个字段,对应着SVPO(Subject/Verb/Parameter/Object)的基本概念。应该注意的是S字段并不能被搜索引擎直接检索,只是作为问题(问题由VPO定义)的一个解决方案。
为了正确地生成检索的VPO字段需要满足很多要求:
1每个字段必须表示为典型的形式:
■参数和对象所包含的名词必须是主格、单数的格式,例如:“nanotube arrays”->“nanotube array”:
■如果参数和对象包括of短语,它们必须转换成为非正式的结构,例如:“queryof user”->“user query”;
■动词字段的动词必须是不定词的格式,例如:“provided”->“provide”。
2参数或者对象字段,如果是由联接词连接在一起,根据联接词的位置将它们分成几个部分,这样就形成了2个或者更多的参数或者对象,例如:
“polymers and copolymers”->“polymer”,“copolymer”
3参数和/或对象字段包含简单的名词词组,剥离所有的附加信息:
bowl containing water”->对象:“bowl”
一个技术解决方案的实施例如下所示:
自然语言格式:
Accelerometer detects acceleration of magnetic head.
SVPO格式:
S:accelerometer
V:detects
P:acceleration
O:magnetic head
图1中的语义处理模块工作时使用了上述的知识库(语义知识库132,本体论知识库136,和专家知识库140)。用户检索式提供给语义处理模块LPM。首先LPM检查用户检索式的合理性。VPO字段对检索式结构来说是强制性的。研究表明,大多数的发明问题都可以表示为一种称为“技术功能”的格式,也就是VPO格式,它表示了一个问题的正式特性(例如:“diskincreases the depth of grinding”,在此V是“increases”,P是“depth”,O是“grinding”),然而问题的解决方案就是这个技术功能的执行者。结构化的功能检索式(VPO)不必经过语义处理。非结构化的功能检索式要经过语义处理以得到VPO字段。LPM使用了一些规则进行语义处理(108),它们用于描述一个上下分析模型。处理算法实现时不需要很多资源。由于以下限制,它在对非结构化的用户检索式处理时非常有效:
缺少主语(S);和
更复杂的句子结构,由于所有的输入句子都采用了祈使语气。
下面是非结构检索式的语义处理实施例:
例1:
检索式:How to test fatigued metals?
结构化形式:V(test)O(fatigued metal)
例2:
检索式:How to measure mechanical properties of MEMS material?
结构化形式:V(measure)P(mechanical property)O(MEMS material)
应该注意的是,LPM在处理时不只使用语义知识库(132),也可能使用本体论知识库(136),它提供名词和动词词组的术语,最终提升了处理的性能。一个经过分析的用户检索式可以是一个正式的VPO结构。这些字段必须经过词形还原,如专家知识库140所示。
VPO格式的用户检索式可以进一步提交给检索扩充模块(116),它使用本体论知识库136的分层结构来完成语义术语扩展。这个过程在后面会用到,为了在使用专家知识库140时检索到尽可能多的与问题相关的解决方案。
图3描述了本发明的一个实施例,说明了LPM的扩展模块的结构和功能示意图。框图300中,VPO格式的用户检索式368使用任何可变的扩展方法进行扩展。相应地要进行任何下述的扩展(如图3所示):
同义词扩展372(对动词、参数、和对象进行扩展);
种属扩展376(上下位扩展,只对对象进行扩展);和/或
关联扩展380(只对对象扩展)。
同义词扩展372时,用户检索式(VPO)的每个字段都可被相应的同义词替代:直接同义词和词法同义词。
例如:
输入(用户检索式)是:change dimensions of a solid body
VPO格式:V(change),P(dimension),O(body)
输出(同义词扩展):
V(change,alter,modify,vary)
P(dimension,proportion,size)
O(body,organic structure,physical structure)
应该注意到词法同义词扩展(V->VP或VP->V)的结果也可以得到同义词术语。
种属扩展(376)是把检索式字段中的术语用术语的分层关系(父关系或者子关系)来替代。有两种“种属扩展”:
■从一个特例术语到一个通用术语(自底向上)
例如:
输入(用户检索式):change the surface curvature of the conducting liquiddrop
VPO格式:V(change)P(surface curvature)O(conducting liquid drop)输出:(只将对象O进行父关系扩展)
O(round shape,small indefinite amount)
■从一个通用术语到一个特例术语(自顶向下)
例如:
输入(用户检索式):change the direction of movement of the gas flowVPO格式:V(change)P(direction)O(movement)
输出:(只将对象O进行子关系扩展)
O(abduction,adduction,flit,dart,circumduction,inclination,retraction,retrofection,rotation,vibration,…)
种属关系376可以检索更特例、更通用、和相关的解决方案。
关联扩展(380)是把检索式字段中的术语用术语的关联关系来替代。
例如:
例如:
输入(用户检索式):measure traveling distance
VPO格式:V(measure)O(traveling distance)
输出:(只将对象O进行关联扩展)
O(light time,skip distance,wingspan,wingspread,object distance,migrationdistance,migration length,altitude,……)
关联种属380的扩展允许针对检索式查找类比的问题(类比方案)。这样扩展后的用户检索式如图所示384.
对解决方案模块(120)搜索的目标是根据扩展后的检索式(116)在专家知识库(140)中查找解决方案,并根据查找的结果罗列解决方案128.搜索引擎比较专家知识库140中的VPO字段和来自检索式扩展模块116/300的扩展后的检索式372/376/384.这些字段的对应关系将检索出相关的解决方案。
在专家知识库140中和扩展后的检索式有一定关联的解决方案,将被抽取出来作为检索结果提供给用户。由于这些解决方案的性质,需要根据语义关系对它们进行分类(根据扩展类型372/376/380)。在专家知识库中的所有解决方案按照语义关系分为以下几类:
1精确方案——这些解决方案的VO/VPO字段和对检索式初始形成的VO/VPO字段完全复合。
例如:
用户检索式:V(heat)    O(water)
解决方案:S(coil)V(increase)P(temperature)O(water)
2特例方案——这些解决方案的VO/VPO字段中的至少一个是是检索式中相关字段的一个特例。
例如:
用户检索式:V(neutralize)O(hydrochloric acid)
解决方案:S(alkali)V(neutralize)O(hydrochloric acid)
3通用方案——这些解决方案的VO/VPO字段中的至少一个是是检索式中相关字段的一个通用概念。
例如:
用户检索式:V(neutralize)O(hydrochloric acid)
解决方案:S(alkali)V(neutralize)O(acid)
4类比方案——这些解决方案的VO/VPO字段中的至少一个是是检索式中相关字段的一个相关概念。
例如:
用户检索式:V(neutralize)O(hydrochloric acid)
解决方案:S(alkali)V(neutralize)O(nitric acid)
在上面的例子中,S代表“主题词”或者问题的解决思路。
根据解决方案的类型进行分类的算法如下面的两个表(分别是VPO格式和VO格式)所示。先对其中的符号作以解释:
S——原始的术语或者它的同义词;
H——子关系术语;
R——父关系术语;
C——关联术语;
Exact——术语的精确匹配;
Partial——部分匹配(根据最左词的裁减算法);
Any——精确匹配或者部分匹配;
∈——“属于、包含于”的意思。
表1
  解决方案类型   动词(V)   参数(P)   对象(O)   其它条件
  精确方案   S-Exact   S-Exact   S-Exact
  特例方案   S-Exact   S-Exact   SH-Exact   O∈H-Exact
  通用方案1   S-Exact   S-Exact   SHR-Exact   O∈R-Exact
  通用方案2   S-Exact   S-Any   SHR-Any   P∈S-Any&O∈SHR-Partial
  类比方案   S-Exact   S-Any   SHRC-Any   O∈C-Any
表2
  解决方案类型   动词(V)   参数(P)   对象(O)   其它条件
  精确方案   S-Exact   S-Exact
  特例方案   S-Exact   SH-Exact   O∈H-Exact
  通用方案1   S-Exact   SHR-Exact   O∈R-Exact
  通用方案2   S-Exact   SHR-Any   O∈SHR-Partial
  类比方案   S-Exact   SHRC-Any   O∈C-Any
例如,在表1的类比方案中,动词一栏是“S-Exact”,这意味着动词字段只能对输入的动词(Exact)进行同义词(S)扩展。对参数字段也进行同义词扩展。目标字段可以包括进行语义扩展的任何字段(SHRC-Any)。其它条件是指对象字段必须包括一个相关术语(C)。
如表所示,通用方案有两行。通用方案1是指对原始术语未经截取而进行语义扩展得到的解决方案。通用方案2是指使用最左词截取算法后得到的解决方案。
最左词截取算法如下所示。如果在本体论知识库中没有发现对输入术语的精确匹配,就删除最左面的词语,然后在本体论知识库中再次检索剩下的术语。这个过程不断重复直到找到了一个匹配,或者只剩下一个单词为止。在任何一种情况下,经过截取得到的术语与原始术语相比,一般都认为它们的概念更通用。
例如:“photosensitive resin composition”经过截取以后变为“resin composition”,再次经过截取以后变为“composition”。
在本发明的一个实施例中,可以使用一个计算机和/或通信***。在一个实施例中,一个计算机可以作为几个计算设备,例如但不限于,本发明的知识库。计算机包括,但不限于,一个个人计算机,一个工作站,一个移动设备,一个电话,一个个人数字助理,一个简易的客户端,一个复杂的客户端,一个网络应用,一个Internet浏览器,一个寻呼器,一个报警设备,一个电视,一个交互电视,一个接收机,一个调谐器,一个高清晰电视,一个高清晰电视接收机,一个视频点播***,一个服务器,或者其它设备等等。
本发明的一个实施例中,计算机包括一个中央处理器,它链接到总线。处理器可以通过总线控制存贮器。计算机可以和输入输出子***相连,例如网络接口设备,或者链接到网络的调制解调器。计算机也可以通过总线和第二存贮器相连,或者通过主要存贮器和第二存贮器相连。第二存贮器可以包括一个磁盘存贮单元或者其它的存贮介质等等。实施例中的磁盘存贮单元包括,但不限于,一个磁性存贮设备,例如硬盘,或者一个光存贮设备,例如一次写入多次读出(WORM)的驱动器,一个光盘(CD),或者一个磁光设备。第二存贮器的另一种类型包括一个可移动的磁盘存贮设备,它和可移动的存贮介质联合使用,例如一个CD-ROM,或者一个软盘等等。一般来说,磁盘存贮单元能够存贮操作计算机***的一个应用程序。磁盘存贮单元也可以存贮数据库文件。计算机可以通过总线和输入输出子***和磁盘存贮单元相联系。总线也可以链接到一个输出显示设备上,一个输入设备上,例如,但不限于,一个键盘和一个鼠标或者其它的指定或者选择设备上。
在本专利中,计算机程序介质和计算机可读介质一般是指,但不限于,可移动的存贮设备介质,安装在硬盘驱动器中的硬盘介质,和信号介质等等。这些计算机程序产品可以给计算机***提供软件。本发明的保护范围也包括这些计算机程序产品。
本发明所述的实施例都是本发明实施时的一种特殊情况,本发明的保护范围并不局限于此。
连接和联接在本发明中都指两个或者多个单元直接相连,但是联接可以指两个或者多个单元不是直接相连,它们之间互相协作或者交互作用。
这里的算法是指找到所要求结果的始终如一的一系列动作或者操作。它们可以包括大量的物理操作。操作的信号形式可以是电信号或者磁信号,这些信号能够被存贮、转换、联合、比较、以及其它形式的操作。这些信号的形式可以是比特,数值,元素,符号,字符,术语,数字,等等。
本发明中所述的处理、计算、判定等等都是对数据的一种操作和转换。
计算机平台可以包括一个或者多个处理器。
本发明的实施例包括完成这些操作的设备。
尽管上面描述了本发明的一些实施例,但应该理解的是这些实施例都只是本发明实施的一些具体例子,不应该是本发明保护范围的限制。本发明的保护范围不应该由说明书的描述所限定,而应该由权利要求书和它们的等效物来限定。本领域的熟练技术人员根据上述的描述和说明对本发明实施例所作的改动,都应该在本发明的保护范围之内。

Claims (26)

1一种解决问题的方法,包括:
存贮一个用户检索式,所述检索式包括至少一个结构化或者非结构化的问题描述;
对所述非结构化的用户检索式进行解析,形成一个结构化的用户检索式,所述结构化的用户检索式包括所述用户检索式的一个正式的语义表示式;
对所述用户检索式的所述正式语义表示式进行扩展,提供与问题相关的至少一个扩展后的检索式;
使用所述扩展后的检索式在专家知识库中进行检索;和
将在专家知识库中找到的解决方案按照语义关系进行分类。
2根据权利要求1所述的方法,其中所述结构化的用户检索式是用语义上的动词-参数-对象(VPO)格式表示的。
3根据权利要求1所述的方法,其中所述的问题至少包括一个发明问题或者用户技术问题。
4根据权利要求1所述的方法,其中所述的非结构化的用户检索式是用自然语言的格式表示的。
5根据权利要求1所述的方法,其中所述的语义扩展包括搜索与问题相关的至少一个问题表达式。
6根据权利要求1所述的方法,其中解析的步骤包括:
对所述的非结构化用户检索式进行词法和语法分析;和
对所述非结构化的检索式进行语义分析,生成所述用户检索式的正式语义表示式。
7根据权利要求6所述的方法,其中所述的词法和语法分析基于至少一个语义知识库或者一个本体论知识库,来识别所述用户检索式的名词和动词词语。
8根据权利要求6所述的方法,其中所述的词法和语法分析基于对所述用户检索式进行词法和语法分析、词形还原辞典、对名词和动词进行分类的语义算法、以及来自于语义知识库中对参数的列表,生成所述用户检索式的动词-参数-对象格式的正式语义表示式。
9根据权利要求1所述的方法,其中所述的语义扩展基于本体论知识库进行,生成所述用户检索式的所述正式表示式的语义扩展式。
10根据权利要求9所述的方法,其中所述本体论知识库包括一个数据库,所述数据库中至少含有一个术语,或者所述至少一个术语在两个或者多个不同知识领域之间的一种关系。
11根据权利要求10所述的方法,其中所述至少一个术语包括至少一个名词概念,或者一个动词概念。
12根据权利要求10所述的方法,其中所述动词术语的关系包括至少一个直接同义词,或者一个句法同义词。
13根据权利要求10所述的方法,其中所述名词术语的关系包括至少一个直接同义词,或者一个种属关系,或者一个关联关系。
14根据权利要求9所述的方法,其中所述本体论知识库包括至少一个术语或者工具,使不同领域专家能够编辑或者丰富所述本体论知识库。
15根据权利要求9所述的方法,其中所述语义扩展包括所述用户检索式的所述正式语义表示式的检索模式的罗列。
16根据权利要求15所述的方法,其中所述罗列中的每个检索模式包括这个检索模式与所述正式语义表示式相比较的相关值。
17根据权利要求1所述的方法,其中所述检索包括基于所述罗列中的所述检索模式在所述专家知识库中进行检索,确定所述问题的所有相关解决方案。
18根据权利要求17所述的方法,其中所述专家知识库是从自然语言表示的文献中提取出来的技术解决方案的知识库。
19根据权利要求18所述的方法,其中所述自然语言表示的文献包括至少一个专利或者一篇论文。
20根据权利要求18所述的方法,其中所述技术解决方案是自然语言的句子,并以主题-动词-参数-对象的格式表示。
21根据权利要求17所述的方法,其中所述的专家知识库能够提供术语和工具,使不同领域专家能够编辑和丰富所述专家知识库。
22根据权利要求17所述的方法,其中所述确定所有相关解决方案只是指在所述专家知识库中相应字段和检索模式的动词、参数、对象字段相匹配的技术解决方案。
23根据权利要求22所述的方法,其中所述技术解决方案被赋予和所述检索模式相关值相似的相关值。
24根据权利要求1所述的方法,其中所述根据语义对解决方案进行分类基于所述语义表示式的类型和所述技术解决方案的所述相关值。
25根据权利要求24所述的方法,其中所述解决方案的分类包括以下几种:精确方案,特例方案,通用方案,和类比方案。
26根据权利要求25所述的方法,其中在所述解决方案分类的子罗列中,根据语义表示式的类型和所述技术解决方案的所述相关值进行排序。
CNB2004100783370A 2004-09-24 2004-09-24 使用本体论和用户查询处理技术解决问题的方法 Expired - Fee Related CN100361126C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100783370A CN100361126C (zh) 2004-09-24 2004-09-24 使用本体论和用户查询处理技术解决问题的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100783370A CN100361126C (zh) 2004-09-24 2004-09-24 使用本体论和用户查询处理技术解决问题的方法

Publications (2)

Publication Number Publication Date
CN1752966A true CN1752966A (zh) 2006-03-29
CN100361126C CN100361126C (zh) 2008-01-09

Family

ID=36679820

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100783370A Expired - Fee Related CN100361126C (zh) 2004-09-24 2004-09-24 使用本体论和用户查询处理技术解决问题的方法

Country Status (1)

Country Link
CN (1) CN100361126C (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008131607A1 (en) * 2007-04-28 2008-11-06 Iatopia Group Limited A system and method for intelligent ontology based knowledge search engine
CN102160079A (zh) * 2008-09-19 2011-08-17 摩托罗拉*** 用于内容项目的关联内容的选择
CN102662929A (zh) * 2012-03-20 2012-09-12 中南大学 一种基于本体的问题智能分析处理的方法和装置
CN103412866A (zh) * 2013-06-14 2013-11-27 杜向阳 能从事灵感思维和直觉思维的高智能搜索引擎
CN105468933A (zh) * 2014-08-28 2016-04-06 深圳先进技术研究院 生物学数据分析方法和***
CN105653660A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种检索关键字的联想方法及装置
CN106980624A (zh) * 2016-01-18 2017-07-25 阿里巴巴集团控股有限公司 一种文本数据的处理方法和装置
CN107016012A (zh) * 2015-09-11 2017-08-04 谷歌公司 处理在处理自然语言查询中的故障
CN110933952A (zh) * 2017-03-30 2020-03-27 施耐德电气美国股份有限公司 用于分布式数据***的语义搜索及规则的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US20020010574A1 (en) * 2000-04-20 2002-01-24 Valery Tsourikov Natural language processing and query driven information retrieval
CN1335574A (zh) * 2001-09-05 2002-02-13 罗笑南 智能语义搜索方法
CN1521661A (zh) * 2003-01-29 2004-08-18 黄致辉 一种利用自然语言处理功能进行信息检索的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008131607A1 (en) * 2007-04-28 2008-11-06 Iatopia Group Limited A system and method for intelligent ontology based knowledge search engine
CN102160079A (zh) * 2008-09-19 2011-08-17 摩托罗拉*** 用于内容项目的关联内容的选择
CN102160079B (zh) * 2008-09-19 2016-05-04 摩托罗拉*** 用于内容项目的关联内容的选择
CN102662929A (zh) * 2012-03-20 2012-09-12 中南大学 一种基于本体的问题智能分析处理的方法和装置
CN103412866A (zh) * 2013-06-14 2013-11-27 杜向阳 能从事灵感思维和直觉思维的高智能搜索引擎
CN105468933A (zh) * 2014-08-28 2016-04-06 深圳先进技术研究院 生物学数据分析方法和***
CN105468933B (zh) * 2014-08-28 2018-06-15 深圳先进技术研究院 生物学数据分析方法和***
CN107016012A (zh) * 2015-09-11 2017-08-04 谷歌公司 处理在处理自然语言查询中的故障
CN105653660A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种检索关键字的联想方法及装置
CN106980624A (zh) * 2016-01-18 2017-07-25 阿里巴巴集团控股有限公司 一种文本数据的处理方法和装置
CN110933952A (zh) * 2017-03-30 2020-03-27 施耐德电气美国股份有限公司 用于分布式数据***的语义搜索及规则的方法
CN110933952B (zh) * 2017-03-30 2024-02-27 施耐德电气美国股份有限公司 用于分布式数据***的语义搜索及规则的方法

Also Published As

Publication number Publication date
CN100361126C (zh) 2008-01-09

Similar Documents

Publication Publication Date Title
US9280535B2 (en) Natural language querying with cascaded conditional random fields
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
CN1535433A (zh) 基于分类的可扩展交互式文档检索***
CN1871603A (zh) 处理查询的***和方法
CN1777888A (zh) 基于移动结构概念的句子结构分析及使用其的自然语言搜索
CN1669029A (zh) 自文件集合中自动搜寻概念层次结构的方法及***
CN1904896A (zh) 结构化文档处理装置、搜索装置及结构化文档***和方法
CN1846210A (zh) 利用本体存储并检索数据的方法及装置
CN1281191A (zh) 信息检索方法和信息检索装置
CN1942877A (zh) 信息提取***
CN1728140A (zh) 信息检索***中基于短语的索引编制
JP2005182280A (ja) 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム
CN1728142A (zh) 信息检索***中的短语识别
CN1728143A (zh) 基于短语产生文献说明
CN1536483A (zh) 网络信息抽取及处理的方法及***
CN1841367A (zh) 用于通过在语言之间执行翻译来支持交流的交流支持设备和方法
CN1894688A (zh) 对译判断装置、方法及程序
CN1728141A (zh) 信息检索***中基于短语的搜索
CN1219266C (zh) 一种实现多路对话的人-机汉语口语对话***的方法
CN1726508A (zh) 基于结构化知识的学习/思考机器和学习/思考方法以及计算机***和信息生成方法
CN1691007A (zh) 用于文档处理的方法、***或存储计算机程序的存储器
CN101034414A (zh) 信息处理设备和方法以及程序
CN1808430A (zh) 智能、图示和自动化互联网和计算机信息的检索和挖掘方法
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Liu Tonghao

Document name: Notice of first review

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: 100025 Beijing city Chaoyang District eight Li Zhuang in 1 Lai Jin TownCN-08

Patentee after: Yiweixun Science and Technology Co., Ltd., Beijing

Address before: 100026 Beijing city Chaoyang District West Road No. 1 A Winterless center block 5A

Patentee before: Yiweixun Science and Technology Co., Ltd., Beijing

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080109

Termination date: 20200924

CF01 Termination of patent right due to non-payment of annual fee