CN101436191A

CN101436191A - 用于计算对象之间竞争性度量的方法与***

Info

Publication number: CN101436191A
Application number: CN200710188234.3A
Authority: CN
Inventors: 李建强; 赵彧; 福岛俊一
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2007-11-13
Filing date: 2007-11-13
Publication date: 2009-05-20
Also published as: US20090125549A1; JP4920023B2; JP2009151760A

Abstract

本发明提供了一种用于计算对象之间竞争性度量的方法与***。所述方法包括：获取第一对象A和第二对象B；从关系实例库中存储的所有关系实例中选择与所述第一对象和第二对象相关的关联关系实例；并且基于选择的所述关联关系实例来计算所述第一和第二对象之间的外延竞争性度量S_out，作为所述第一和第二对象之间的所述竞争性度量。在一个实施例中，与第一和第二对象相关的关联关系实例在所有信息源文档中出现的频率被用于计算对象之间的外延竞争性度量。另外，本发明还提供了一种用于将内涵和外延竞争性度量组合在一起的集成竞争性度量计算方法和***。

Description

用于计算对象之间竞争性度量的方法与***

技术领域

本发明涉及信息处理，更具体而言，本发明提供了用于计算两个对象(例如产品/公司)之间的竞争性度量(competitive metric)以允许自动的挖掘/发现竞争者的方法和***。

背景技术

当今，人们能够获得的信息越来越多。由于很多原始信息不是外在可见的，因此需要有针对性地对原始信息进行处理，以从中获得有用的信息。由于信息量和处理时间上的要求，尤其是因为伴随着网络和通信技术的飞速发展，信息量大、信息多样以及信息分散等特点越来越显著，在许多应用中，已经不可能人工地来对信息进行处理。因此，迫切需要利用计算机技术来有针对性地自动对信息进行例如提取、挖掘、比较、度量、评价等的处理的技术。其中，自动分析和计算对象之间的竞争性度量的技术就是其中的一种信息处理技术。

在当前的竞争性环境中，尤其在商业环境中，几乎所有公司都希望了解到它们的竞争者的情况，例如谁是竞争者、竞争者在哪以及在干什么。但是，寻找竞争者是一项耗时并且繁重的任务，并且在全球化环境中尤其如此。在全球化环境中，竞争者可能来自世界各地并且它们在市场上的产品也在不断改变。

商业智能(Business Intelligence，BI)代表将原始数据转化成信息/知识并且帮助企业用户更好地做出商业决定所需的技术和应用的集合。竞争性智能(Competitive Intelligence，CI)则尤其集中针对关于外部商业环境的信息的收集、分析和管理。当前，竞争性信息仅仅可以从以下三种方式获得：1)通过与竞争者的员工或用户面谈或联网，2)在web搜索引擎(例如Google)的帮助下收集所需信息并人为浏览和汇总搜索结果，以及3)来自公众或订购源，例如Yahoo Finance、D&B、infoUSA、Hoovers和OneSource。其中1)和2)都基于人类活动，因此非常耗时耗力，并且收集的信息范围很有限。对于3)，虽然存在某些包含公司信息的商业数据库可被利用，但是它们的数据规模非常有限，其中大多数数据库是单一语言的，并且可能仅包括金融信息(例如Yahoo Finance和D&B)或仅覆盖本地公司(例如infoUSA)。另外，这些商业数据库中的信息被是由人工来完成更新，因此订购者/用户难以或甚至不能大规模地收集实时的竞争性相关信息，尤其是在全球化的商业环境中。

考虑到寻找竞争者的任务对用户而言很繁重，因此强烈需要更有效的自动化竞争性分析方法，用于计算竞争者(例如公司/产品的竞争性对象)之间的竞争性度量。

现有的竞争性度量计算方案通常会借鉴对象相似性计算技术的基本思想，因此下面对相似性计算的相关方法和技术进行简单介绍。

基本上，用于两个对象之间的相似性度量计算的方法或技术可被划分成：基于内容的方法、基于引用(citation)的方法和混合方法。

对于基于内容的方法，可进一步将其分为基于向量空间模型(VectorSpace Model，VSM)的方法和基于属性值的方法。基于VSM的方法主要用于计算两个全文本(full-text)文件之间的相似性度量。其基本思想是：根据***中所有文件中的所有单词建立词汇表；基于该词汇表，每个文件被表示成一个向量；然后采用特定相似性测量手段(其中余弦测量是最常用的一种)来测量两个文件之间的相似性。此外，基于属性的方法主要针对结构化文本。类似于基于VSM的方法，首先，文件/记录被表示为多个属性值(其中每个属性值描述该文件的一个方面)构成的向量；然后计算出每对相应的属性值之间的相似性距离；基于各个属性对相似性度量的贡献对属性进行分类；对经分类的属性应用适当的加权策略，并且通过对各个属性的相似性距离加权求和来测量文件/记录之间的相似性。

对于基于引用的方法，其通常基于两个对象(例如两个网络文件)之间的超级链接/引用信息来计算它们之间的相似性度量。超级链接/引用关系的分析是针对整个对象(网络文件)集合进行的，因此其结果可能比纯粹基于VSM或基于属性的方法的结果更准确、更有效。

对于混合方法，两个对象之间的相似性的计算既考虑到其内容也考虑到整个对象集合中所有对象之间的链接结构，其中相似性度量计算的基本特征包括超级链接结构、文本信息和文档对象模型(Document ObjectModel，DOM)相似性。根据链接结构得到的相似性权重可以根据文本信息和DOM结构的相似性进行调整。

除了上述用于相似性计算的一般方案之外，在以下专利中的某些特定模块也与本发明相关，因此这些专利通过引用被整体上结合于此以用于所有目的：

(1)美国专利US5731991；

(2)美国专利No.20050004880A1；

(3)美国专利No.20050192930A1；以及

(4)美国专利No.2004068413。

但是，对于竞争性度量计算而言，上述现有方案具有以下缺点。

首先，现有方案大都是基于两个对象之间的相似性计算提出的。但是，竞争性计算不同于相似性计算。在概念上，竞争性关系是相似性关系的一个子集，即两个对象相似并不意味着它们彼此竞争。更具体而言，竞争性关系意味着一个对象的存在/开发对另一对象具有负面影响，但相似性关系并非如此。另外，为了测量两个彼此竞争的对象之间的竞争强度，需要制定针对竞争性的特定方针。

对于基于内容的方法，所有针对相似性计算的现有方案都假设两个被比对象(即产品/公司)具有相同结构(即完全是全文本的或者具有某种特定数据结构)。基于VSM的方法无法处理被比对象之一具有结构化或半结构化描述(profile)的情况，而基于属性值的方法无法处理被比对象之一具有全文本描述或者两个对象具有异构(heterogeneous)结构描述的情况。但是在实际应用中，被比对象可能来自不同的信息源(例如不同的数据库或不同的网站)，因此具有不同的结构，这阻碍了现有方案的应用。而且，由于基于内容的相似性计算只考虑到被比对象的内容(即通过内在语义分析)，因此其结果可能并不客观且不全面，因为其中由其他方明确表达的意见观点未被考虑在内。

对于基于引用的方法和混合方法，超级链接/引用指示出两个对象之间的引用或参考关系，因此可以被看作一种由其他方暗示表达的观点。因此，对于混合方法而言，对象内容和对象之间的链接/引用结构都被用于相似性计算。但是，由于超级链接或引用的含义未被明确指出，因此所有这些信息只被看作暗示的外延语义分析。因此，来自其他方(第三方)的明确表达的意见观点依然没有被考虑在内。

另外，上述专利都只能应用于具有共同和固定的属性或特征结构的特定对象类别。所采用的方法无法被用于跨类别的相似性度量计算。另外，利用上述现有技术，无法对任意两个对象(例如产品/公司)进行全面的比较以识别它们之间的竞争性强度。因此，利用以上现有技术，无法获得竞争性度量。

发明内容

鉴于现有技术中的方法存在上述问题，作出了本发明，本发明的目的在于提供用于获得任意两个对象之间的竞争性度量的方法及***。根据竞争性度量计算所依据的标准不同，本发明包括内涵竞争性度量计算、外延竞争性度量计算以及集成(混合)竞争性度量计算三个方面。

所述外延竞争性度量计算采用外延标准，即通过分析由第三方信息源(例如新闻或博客网站)明确提供的竞争性关系实例(instance)来获得外延竞争性度量。所述竞争性关系实例可以通过利用某些公知的文本挖掘或信息提取技术从新闻或博客网站中获得。

根据本发明一个方面，公开了一种用于计算对象之间的外延竞争性度量的方法包括：获取第一对象A和第二对象B；从关系实例库中存储的所有关系实例中选择与所述第一对象和第二对象相关的关联关系实例；并且基于选择的所述关联关系实例来计算所述第一和第二对象之间的外延竞争性度量。在一个实施例中，计算第一和第二对象之间的外延竞争性度量可以包括计算与第一对象和第二对象相关的关系实例所属的信息源文档的数目与关系实例库中存储的所有关系实例所属的信息源文档的总数目之比，作为第一和第二对象之间的外延竞争性度量。

根据本发明另一方面，还公开了一种用于计算对象之间的外延竞争性度量的***，该***包括：对象获取装置，用于获取第一对象A和第二对象B；关系实例库，用于存储关系实例；关系实例选择装置，用于从所述关系实例库中存储的所有关系实例中选择与所述第一对象和第二对象相关的关联关系实例；以及外延竞争性度量计算装置，用于基于选择的所述关联关系实例来计算所述第一和第二对象之间的外延竞争性度量。类似地，所述外延竞争性度量计算装置可以被配置为计算与第一对象和第二对象相关的关系实例所属的信息源文档的数目与关系实例库中存储的所有关系实例所属的信息源文档的总数目之比，作为第一和第二对象之间的外延竞争性度量。

与外延竞争性度量计算相对应，本发明还公开了内涵竞争性度量计算方案，其利用内涵标准(即通过对象描述(profile)比较)来测量两个对象之间的竞争性强度。具体而言，公开了一种用于计算对象之间的内涵竞争性度量的方法包括：获取第一对象和第二对象，所述第一对象和第二对象分别具有各自包含多个属性的第一描述和第二描述；利用本体信息规范化所述第一描述和第二描述；以及基于所述规范化的第一描述和第二描述来计算所述第一对象和第二对象之间的内涵竞争性度量。其中所述本体信息可以采用公共属性名字典，在此情况下，采用一种直接方式来获得第一和第二对象之间的内涵竞争性度量。首先利用相应的本体信息来规范化第一描述和第二描述，即通过参考公共属性名字典确定一种统一描述的结构，并且使第一描述和第二描述中的属性与该统一描述中的相应属性对准。然后通过对相应属性计算子度量以及对所有子度量加权求和来获得最终的内涵竞争性度量。此外，所述本体信息还可以采用对象类别树，其每个节点代表不同的对象类别并且包括一个或多个代表性描述。在此情况下，可以采用一种间接方式来获得第一和第二对象之间的内涵竞争性度量。首先利用相应的本体信息来规范化第一描述和第二描述，即将第一描述和第二描述分别映射到对象类别树上的节点。然后通过参考描述被映射到节点的概率以及节点之间的语义距离来获得最终的内涵竞争性度量。

另外，在集成竞争性度量计算中，通过动态集成第一对象和第二对象之间的内涵竞争性度量计算和外延竞争性度量计算的结果来生成两个对象之间的集成竞争性度量。为了确保最终竞争性度量的客观性和全面性，首先要对在外延竞争性度量计算时提取出的关联关系实例的数据质量进行分析，以判断它们是否可信或者它们的可信度有多高，其判断结果被用于集成所需加权系数的分配。然后，采用一种自适应的集成机制来组合外延竞争性度量和内涵竞争性度量，从而得到最终的集成竞争性度量。该集成竞争性度量不仅反映了内涵语义分析的结果，还反映了外延语义分析的结果，因此是客观的并且全面的。通过这种集成(组合)过程，内涵和外延竞争性度量之间可能出现的不一致通过某种可调整的策略被处理，所述可调整的策略主要取决于与时间相关的统计信息以及相应信息源的可信度。

根据本发明，两个对象(例如产品/公司)之间的竞争性度量可以被计算，该竞争性度量是新定义的度量，其不同于本领域公知的相似性度量。

利用外延竞争性度量计算方法和***，根据从第三方(例如新闻网站或博客)明确表达的关系实例来生成两个对象之间的外延竞争性度量。与内涵竞争性度量相比，这样产生的外延竞争性度量通常更客观。

另外，在集成竞争性度量计算中，提供了一种动态机制将内涵竞争性度量和外延竞争性度量组合在一起，通过这种方法，可以尽可能深入地分析信息源的质量(即知识起源分析)。由于最终生成的集成竞争性度量不仅反映出对象描述之间的相似性而且反映出来自第三方的意见，因此与纯粹的内涵分析(基于内容的竞争性分析)或外延分析相比，集成竞争性分析可以获得更全面的结果。

另外，在外延以及集成竞争性分析中，新闻/博客带有的时间戳可以被映射到关系实例，并最终被映射到外延竞争性度量，从而可以支持竞争性关系的时间性(依赖于时间的)分析。关系实例还可以带有其他附加信息，例如位置(区域)或工业领域，这些附加信息使得竞争性度量计算还可以支持某些特定市场或领域分析。

从下面结合附图的详细描述中，可以看出本发明的其他特征和优点。注意，本发明并不限于图中所示的示例或者任何具体的实施例。

附图说明

结合附图，从下面对本发明实施例的详细描述，将更好地理解本发明，附图中类似的参考标记指示类似的部分，其中：

图1是示出根据本发明用于计算内涵竞争性度量的内涵竞争性度量计算***的结构框图；

图2是示出图1所示内涵竞争性度量计算***的操作过程的流程图；

图3是示出采用直接方式的内涵竞争性度量计算***的详细框图，其中根据公共属性名字典通过属性对准方式来执行描述规范化；

图4是示出图3所示***的操作过程的流程图；

图5是示出内涵竞争性度量计算中的属性对准过程的一个示例；

图6是更详细示出图3中的子度量计算单元的详细框图；

图7是示出在选择基于VSM的方法来计算属性子度量的情况下，子度量计算单元的详细框图；

图8是示出采用间接方式的内涵竞争性度量计算***的详细框图，其中根据对象类别树通过映射方式来执行描述规范化；

图9是示出图7所示***的操作过程的流程图；

图10是详细示出对象类别树以及与其节点结构相对应的代表性描述层次结构的示意图；

图11是示出在间接方式的内涵竞争性度量计算中，根据对象类别树通过映射方式来计算竞争性度量的过程的一个示意图；

图12是示出根据本发明用于计算外延竞争性度量的外延竞争性度量计算***的总体结构框图；

图13是示出图12所示外延竞争性度量计算***的操作过程的流程图；

图14是示出根据本发明用于计算外延竞争性度量的外延竞争性度量计算***的一个示例的详细结构框图，其中详细示出外延竞争性度量计算装置的内部结构；

图15是示出图14所示外延竞争性度量计算***用于计算外延竞争性度量的操作过程的流程图；

图16是示出根据本发明用于计算外延竞争性度量的外延竞争性度量计算***的另一示例的详细结构框图，其中并入了关系实例过滤装置，用于根据关联关系实例的附加信息对对象之间的外延竞争性强度进行时间、区域、领域分析；

图17是根据本发明用于计算集成竞争性度量的集成竞争性度量计算***的结构框图；

图18示出图17所示集成竞争性度量计算***中的合并模块的一个示例的详细框图；

图19是示出图18所示合并模块的内涵和外延竞争性度量合并过程的流程图；以及

图20是被用于实现本发明的计算机***的示意性框图。

具体实施方式

如前所述，竞争性关系是一种新定义的关系，其不同于公知的相似性关系。现有技术中的相似性计算一般都假设两个被比对象(即文件)具有相同结构。例如，基于VSM的方法无法处理被比对象之一具有结构化或半结构化描述的情况，而基于属性值的方法无法处理被比对象之一具有全文本描述或者两个对象具有异构结构描述的情况，这给应用带来很大不便。鉴于此，本发明提供了用于获得任意两个对象(例如产品/公司)之间的竞争性度量的方法及***。根据竞争性度量计算所依据的标准不同，本发明包括内涵竞争性度量计算、外延竞争性度量计算以及集成(混合)竞争性度量计算三个方面。

[内涵竞争性度量计算]

内涵竞争性度量计算是利用内涵标准来计算对象之间的竞争性度量的方法，即通过比较不同对象的内在描述来评价对象之间的竞争性强度。根据比较方法的不同，内涵竞争性度量计算可被进一步分为直接方法和间接方法。在直接方法中，对象描述通过规范化过程后被直接比较，以计算竞争性度量。在间接方法中，以对象类别树作为中介对对象描述进行比较，以计算竞争性度量。下面将参考附图1-11，首先对内涵竞争性度量计算进行介绍。

图1是示出根据本发明用于计算内涵竞争性度量的内涵竞争性度量计算***100的结构框图。如图所示，***100的主要部分是内涵竞争性分析模块10，其包括对象获取装置101、规范化装置102和内涵竞争性度量计算装置103。另外，***100还包括本体(ontological)信息库104、对象数据库105和内涵竞争性度量数据库106，其中对象数据库105存储有应用从Web或其他信息源收集的对象(例如文件)，所述对象将被内涵竞争性分析模块10所分析和处理。本体信息库104存储了内涵竞争性分析模块10用来计算竞争性度量将参考的本体信息(即背景知识)。本体信息是大众对感兴趣的领域的公共理解，在实际应用中，它可以预先以手工或(半)自动方式建立。本体信息例如可以包括公共属性名字典1041和对象类别树1042(随后将详细描述)。内涵竞争性度量数据库106用于存储计算出的内涵竞争性度量。

图2示出图1所示***100的操作的流程图。过程开始于对象获取装置101从对象数据库105获取被比的第一对象和第二对象(步骤201)。所述第一和第二对象分别由第一描述A和第二描述B表征。由于对象可能是由多个源收集来的，因此即使针对同一类别，所产生的第一描述A和第二描述B也可能具有不同结构，例如全文本或异构结构。这里，我们使用一组属性值来指定所产生的描述，例如A＝(A1-V_A1，A2-V_A2，...，Am-V_Am)和B＝(B1-V_B1，B2-V_B2，...，Bn-V_Bn)，其中Ai代表描述A的第i个属性，V_Ai代表描述A的第i个属性的值，而Bi代表描述B的第i个属性，V_Bi代表描述B的第i个属性的值。基本上，这样的值被用来描述属性，它可以是数字、数字和英文字母(和/或中文文字和/或标点符号)的混合串、一段文本等等。全文本描述被视为一种特殊的结构化描述，即其仅具有一对属性值。接下来，在步骤202处，参考来自本体信息库104的本体信息，例如公共属性名字典1041或对象类别树1042，第一描述A和第二描述B按某种方式被规范化以使其便于进行竞争性度量的计算。随后将更详细描述，该规范化步骤可以通过以下方式之一来实现：(1)参考公共属性名字典1041确定一种统一描述并将第一描述A和第二描述B与该统一描述在结构上对准(下文中称之为“直接方式”)；或(2)将第一描述A和第二描述B映射到对象类别树1042(下文中称之为“间接方式”)。然后，在步骤203，经规范化的第一描述A和第二描述B可被用于计算第一对象和第二对象之间的内涵竞争性度量。

下面将首先参考图3-7来描述根据本发明的采取直接方式的内涵竞争性度量计算。应当意识到，所描述的实施例仅是用于举例说明的目的，本发明并不限于所描述的具体实施例。如图3所示，其示出采取直接方式的内涵竞争性度量计算***300的详细框图，其中根据公共属性名字典通过属性对准方式(即直接方式)来执行描述规范化。

如图3所示，在该实施例中，公共属性名字典1041作为本体信息被参考。规范化装置102包括判断单元301、统一描述结构生成单元302和对准单元303。内涵竞争性度量计算装置103包括子度量计算单元304和竞争性度量计算单元305。另外，***300还包括竞争加权策略库306，用于提供特定于领域的竞争性加权策略(随后将描述)。

下面将参考图4来描述***300的操作。

与图2相同，该过程开始于对象获取装置101从对象数据库105获取被比的第一对象和第二对象(步骤401)。所述第一和第二对象分别具有第一描述A＝(A1-V_A1，A2-V_A2，...，Am-V_Am)和第二描述B＝(B1-V_B1，B2-V_B2，...，Bn-V_Bn)。接下来，在步骤402处，判断单元301执行描述类型判断，通过该操作，第一和第二描述A和B的结构被分析，以确定它们是全文本的还是结构化的描述，如果是结构化描述，还要确定其模式(schema)。然后在步骤403，在公共属性名字典1041的支持下，统一描述结构生成单元302接收来自判断单元301的结构分析结果并确定一种统一描述结构(C1，C2，...，Cs)，即A＝(C1-V_A1，C2-V_A2，...，CS-V_AS)和B＝(C1-V_B1，C2-V_B2，...，C_s-V_Bs)。基于该确定的统一描述结构和公共属性名字典1041，对准单元303重新组织第一描述A和第二描述B的结构以使它们中的属性与统一描述中的属性在结构上对准(步骤404)。图5示出了描述属性对准过程的一个示例，其中被比对象描述涉及两种打印机产品，其包括属性“打印速度”、“纸张尺寸”、“操作***”和“噪声电平”，第一描述A和第二描述B中的属性结构按照统一描述的结构被对准。

然后，已经在结构上对准后的第一描述A和第二描述B被发送到子度量计算单元304以分别计算各个属性的子度量(步骤405)。子度量计算单元304的结构如图6所示。子度量计算单元304包括属性类型判断单元601、子度量测量方式选择器602和子度量计算器603。如图所示，首先输入两个属性(属性值)A_i＝Ci-V_Ai和B_i＝Ci-V_Bi到属性类型判断单元601，所述属性A_i和B_i分别属于第一描述A和第二描述B并且是结构上对准的属性。如上所述，每个属性值是关于对象描述所针对对象(例如产品)的一个方面的说明，其中属性名指示哪个方面被描述，其值包括描述该属性的内容。属性的内容可以是单值的也可以是多值的，属性值可能是简单的数据类型也可能是复杂的数据类型。通常，不同的数据类型需要使用不同的计算方法来计算竞争性子度量。一般地，单值的属性根据数据类型被划分成两类：(1)针对具有符号值(例如枚举数据类型或全文本)的属性；和(2)针对具有数字值的属性。针对符号值属性(例如全文本)，一般采用基于VSM的方法来计算竞争性子度量，而针对数字值属性，则一般采用基于属性值的方法来计算竞争性子度量。多值的属性被用于处理具有一组值的属性，其也被划分成两类：(1)多个值被顺序排列的属性；和(2)多个值被无顺序排列的属性。在实际实现方式中，针对多值属性的竞争性度量计算方法可以访问针对单值属性的方法所提供的功能。关于属性内容及数据类型的判断，很多方法可以从相似性测量的现有方法中借鉴，这里不再详述。应该注意，这些情况仅仅是示例性的，本发明也可以按利用不同数据类型定义的不同方式来实现。

接下来，根据子度量测量方式选择器602所选择的测量方式，子度量计算器603被用于计算属性A_i和B_i之间的竞争性子度量c_i(A_i，B_i)。

如上所述，对于全文本类型的属性值，基于VSM的相似性计算方法可以被采用来计算属性之间的竞争性子度量。下面参考图7来对其进行详细描述。基本上，VSM将文本内容表示为出现在所有文件集合中的项(单词)的特征向量。在某些实施例中，例如在处理中文或日文文本时，在生成相应的特征向量之前，需要首先对文本中的各个项(单词)进行领域和词性分析，并根据分析结果进行加权。文本之间的相似性是利用针对特征向量的若干相似性测量方法(例如常见的余弦方法和Jaccard方法)之一来测量的。

图7示出在属性类型被确定为全文本的情况下，选择基于VSM的方法来计算属性A_i和B_i之间的子度量的子度量计算器的详细框图。如图所示，在该示例中，子度量计算器603包括向量化单元701、基于VSM的子度量计算器702、领域与词性分析模块703以及预处理单元704。首先，全文本属性A_i和B_i可以被输入到预处理单元704，在预处理单元704中，诸如专有名词，产品名称，公司名称之类的名称实体由于对衡量竞争关系没有帮助，因此被预先去除掉。这样做，可提高竞争性度量计算的精确性。然后，经预处理的属性A_i和B_i被输入到向量化单元701，其用于生成代表全文本属性A_i和B_i的基于单词的向量。这里，为了进一步提高竞争性度量计算的精确性，还可以并入领域与词性分析模块703和竞争加权策略库306。基于领域与词性分析模块703对全文本属性A_i和B_i中各个单词的所属领域以及词性的分析结果，竞争加权策略库306中预先存储的竞争加权系数规则表可以向不同单词分配不同的竞争性加权系数(权重)。在全文本(结构化的)描述中，每个单词(属性)与一个竞争性加权系数相关联，该系数被用于代表该单词(属性)在竞争性度量计算中的重要性，通过该系数，可以应用适当的竞争加权策略来提高最终结果的精确性。例如，当比较两个关于安全性软件领域产品的对象时，单词“防火墙、垃圾邮件、入侵、病毒”比与该领域无关的单词具有更高的系数(权重)值。通过领域与词性分析模块703的分析，词性为介词、连词、助词、标点、代词、感叹词、情态动词和象声词的单词对最终的竞争性度量没有贡献，因此它们的竞争性加权系数(权重)为0。在实际实现中，竞争加权策略库306中的竞争加权系数规则表可以由用户预先手工建立，也可以利用某种自动方式获得，例如基于来自某些第三方网站的产品(对象)信息进行的关键字提取。当然，本发明并不局限于所述示例，其它能够生成竞争加权系数规则表的方法都可被使用。

然后，向量化单元701生成的代表全文本属性Ai和Bi的基于单词的向量被输入到基于VSM的子度量计算器702，以利用现有的基于VSM的方法生成属性A_i和B_i之间的子度量c_i(A_i，B_i)。

接下来返回图4，在步骤406中，被对准的第一描述A和第二描述B中的所有属性的子度量被输入到竞争性度量计算单元305以计算最终的第一对象和第二对象之间的竞争性度量。如图3所示，计算出的竞争性度量被存储在竞争性度量数据库106中。竞争性度量计算单元305可以通过任意适当的方式基于各个属性的子度量来获得最终的竞争性度量。在本实施例中，竞争性度量计算单元305通过对子度量加权求和来获得最终的竞争性度量。在本实施例中，根据公共属性名字典1041预先为各种属性分配了不同的权重，所述权重被存储在竞争加权策略库306中。因此，第一对象和第二对象之间的竞争性度量按如下等式(1)实现：

Com (A, B) = Σ_{i = 1}^{s} w_{i} c_{i} (A_{i}, B_{i}) / Σ_{i = 1}^{s} w_{i} - - - (1)

其中，A和B是具有统一结构的两个描述，它们都具有s个属性，即A＝(A₁，...As)和B＝(B₁，...，B_s)，c_i(A_i，B_i)是两个描述的第i个属性之间的竞争性子度量，w_i是分配给第i个属性的权重。如上所述，竞争加权策略来自竞争加权策略库306。然后，图4所示过程结束。

下面，将参考图8-11来描述根据本发明采取间接方式的内涵竞争性度量计算。图8示出根据本发明采取间接方式的内涵竞争性度量计算***800的详细框图，其中根据对象类别树通过映射方式来执行描述规范化(间接方式)。不同于第一实施例，如图8所示，对象类别树1042作为本体信息被用于描述规范化。规范化装置102包括映射单元801，其接收来自对象获取装置101的第一对象和第二对象，并将相应的第一描述A和第二描述B分别映射到对象类别树1042的一个或多个节点。在该实施例中，内涵竞争性度量计算装置103包括映射概率计算单元802，语义距离获取单元803和竞争性度量计算单元804(随后将对它们进行详细描述)，并被用于计算第一对象和第二对象之间的内涵竞争性度量。

图9示出图8所示***700的操作的流程图。与图4所示第一实施例的情况相同，该过程开始于从对象数据库105获取第一对象和第二对象，所述第一对象和第二对象分别具有第一描述A和第二描述B(步骤901)。接下来，在步骤902，第一描述A和第二描述B被映射到对象类别树1042的一个或多个节点。

图10示出对象类别树1042以及与其节点结构相对应的代表性描述层次结构1002的示意图。图11示出根据第二实施例计算竞争性度量的一个示例。如前所述，对象类别树1042是对人们感兴趣的领域的公共理解，对关于该领域中的对象(例如文件)进行了分类，其中每个节点对应于一个类别。如图10所示，根类别为C₀，它进而包括两个子类别C₀₁和C₀₂，子类别C₀₁再进一步包括子类别C₀₁₁，而子类别C₀₂进一步包括子类别C₀₂₁和C₀₂₂。在实践中，该对象类别树1042可以用任何本领域公知的自动或半自动方法预先获得。例如，如图11所示，在安全性软件领域，对象类别树1042的根节点对应“安全性软件”类别，其一共具有三个叶子节点，分别对应“防火墙”类别、“防垃圾”类别和“防病毒”类别。当然，对象类别树1042的结构并不局限于所示示例，在各个领域中，用户可以针对不同需求设置不同的对象类别树1042。返回图10，其还示出在结构上与对象类别树1042相对应的代表性描述层次结构1002。代表性描述层次结构1002的每一个节点包括对象类别树1042上的相应节点处的对象类别所对应的一个或多个代表性描述。所述代表性描述包括用于描述对象类别树1042上相应节点处的对象类别的所有相关属性。在每个节点上，所述代表性描述是依赖于语言的，即在每个节点上，针对每种特定语言存在一个代表性描述。所述代表性描述形成的代表性描述层次结构1002可以用任何本领域公知的自动或半自动方法预先获得。

返回图9的步骤902，在该步骤中，获取的第一描述A和第二描述B被映射到对象类别树1042的一个或多个节点。这可以利用已知的基于VSM的方法来实现，该方法以代表性描述层次结构1002中的代表性描述作为中介。就是说，通过利用传统的基于VSM的方法将第一描述A和第二描述B中的每一个的内容与代表性描述层次结构1002上的代表性描述相比较，可以计算出该描述(A或B)与对象类别树1042上相应位置上的节点/类别之间的相似性，从而确定该对象可以属于一个类别或多个类别(取决于实际的实现方式)。

在确定被比描述A和B所属类别之后，映射结果被发送到内涵竞争性度量计算装置103以计算第一对象和第二对象之间的竞争性度量。如图9所示，计算竞争性度量的步骤主要包括三步，即步骤903、904和905。首先在步骤903，计算第一描述A和第二描述B被映射到不同节点的概率。如图11所示，产品A以概率0.7映射到“防火墙”类别节点，产品B以概率0.6映射到“防病毒”类别节点，而产品C以概率0.7映射到同样的“防病毒”类别节点。然后在步骤904，获取对象类别树1042上各个节点之间的语义距离(semantic distance)。所述语义距离用于表征相应节点处的对象类别之间的相似性，其可以利用现有的相似性度量计算方法被预先计算出并被存储在本体信息库104中。假设类别c1和c2之间的距离被表示为dc(c1，c2)，则这两个类别之间的相似性被定义为com(c1，c2)＝1-dc(c1，c2)。这里，两个类别之间的语义距离是根据它们各自在对象类别树1042上的位置来计算的。一般地，较上层类别之间的距离大于较下层类别之间的距离，因此较上层类别之间的相似性小于较下层类别之间的相似性。另外，“兄弟”节点之间的距离一般大于“父节点”与“子节点”之间的距离。然后，在步骤905，根据在步骤903和904中描述A和B被映射到相应节点的概率以及获取的相应节点之间的语义距离来计算第一对象和第二对象之间的内涵竞争性度量。这里存在两种情况，即(1)描述A和B都仅被映射到一个节点(类别)，或(2)描述A和B被映射到多个节点。在描述A和B仅被映射到一个节点的情况下，描述A和B被映射到相应节点的概率都为1，此时，直接利用获取的预先计算的两个节点(类别)之间的语义距离作为分别来自这两个类别的第一对象和第二对象之间的安全性度量。即，假设产品A被映射到类别C₀₁₁，产品B被映射到类别C₀₂₁，并且类别C₀₁₁和C₀₂₁之间的语义距离为0.1，则产品A和产品B之间的竞争性度量为0.1。另外，在描述A和B被分别映射到多个类别的情况下，可以根据描述A和B被映射到相应节点的概率利用余弦测量来计算竞争性度量。在此情况下，可以针对每个描述A和B分别设置一个类别向量d_A和d_B，该类别向量中的每个元素代表该描述被映射到相应类别的概率。然后利用余弦测量

计算描述A和B所代表的第一对象和第二对象之间的内涵竞争性度量。值得注意的是，这里忽略了不同节点之间的语义距离，但是本领域技术人员容易想到，可以通过任何合适的方式将节点之间的语义距离集成进来，从而提高竞争性度量计算的精确性。

例如，在图11所示的示例中，产品A以概率0.7映射到“防火墙”类别节点，产品B以概率0.6映射到“防病毒”类别节点，而产品C以概率0.7映射到同样的“防病毒”类别节点。假设预先计算出“防火墙”节点与“防病毒”节点之间的语义距离为0.1，则可以计算产品A和B(属于不同类别)之间的内涵竞争性度量为0.7×0.6×0.1＝0.042，而产品B和C(属于相同类别)之间的内涵竞争性度量为0.7×0.6＝0.42。当然，计算内涵竞争性度量的方法并不局限于此。然后，图9所示过程结束。

另外，如上所述，代表性描述层次结构1002中不同节点处的代表性描述可以依赖于不同语言。因此，在本实施例中，两个被比对象的描述A和B可以具有不同的语言。

[外延竞争性度量计算]

与内涵竞争性度量计算相对照，所述外延竞争性度量计算采用外延标准，即通过分析由第三方信息源(例如新闻或博客网站)明确提供的竞争性关系实例来获得外延竞争性度量。所述竞争性关系实例可以用于陈述不同对象(例如产品/公司)之间的竞争关系。例如关系实例可能记载“产品A和产品B在本届博览会上角逐本年度高新产品大奖”、“公司A与公司B协作共同开发新一代产品”等等。在某些实施例中，可以通过利用某些公知的文本挖掘或信息提取技术从新闻或博客网站中获得所述竞争性关系实例。显而易见，通过分析竞争性关系实例，可以获取不同对象之间的外延竞争性度量。

图12是示出根据本发明用于计算外延竞争性度量的外延竞争性度量计算***的一个示例1200的结构框图。如图所示，***1200的主要部分是外延竞争性分析模块120，其包括对象获取装置1201、关系实例选择装置1202和外延竞争性度量计算装置1203。另外，***1200还包括关系实例库1204、对象数据库1205、实例选择规则库1206、竞争性强度系数库1207、信息源本体信息库1208和外延竞争性度量数据库1209，其中对象数据库1205存储有从Web或其他信息源收集的对象(例如文件)，所述对象将被外延竞争性分析模块120所分析和处理。关系实例库1204存储了从多个信息源(例如新闻或博客网站)提取出的关系实例。实例选择规则库1206存储了一组关系实例选择规则。竞争性强度系数库1207存储有对应于关系实例库1204中的各个实例的特定于竞争性的强度系数。由于在不同的新闻和博客网站中，人们可能利用不同的语言现象或描述模式来陈述对象关系，并且不同的语言现象或描述模式将大大影响读者用户对相应对象之间的竞争性强度的感觉，因此通常对不同的类型的关系实例分配不同的强度系数，这些强度系数被预先存储在竞争性强度系数库1207中。信息源本体信息库1208中存储有提供各个关系实例的信息源(例如新闻或博客网站)的可信度值。外延竞争性度量数据库1209用于存储计算出的外延竞争性度量。

图13是示出图12所示外延竞争性度量计算***的操作过程1300的流程图。与内涵竞争性度量计算类似，该过程1300开始于对象获取装置1201从对象数据库1205获取第一对象A和第二对象B(步骤1301)。然后，在步骤1302处，关系实例选择装置1202基于来自实例选择规则库1206的给定关系实例选择规则从关系实例库1204中选择出与第一对象A和第二对象B相关的关联关系实例。在一种实现方式中，关系实例选择(过滤)是以某种直观方式执行的，即如果在关系实例中出现了对象A和B的名称或它们的生产者(例如生成产品A和B的公司)的名称，则认为该关系实例是与对象A和B相关的关联关系实例。当然，所述关系实例选择规则仅仅作为一个示例，本发明并不局限于此。本领域技术人员显而易见，根据不同需求，可以设计或提供不同的关系实例选择规则。然后，在关系实例选择装置1202选出与对象A和B相关的关联关系实例之后，在步骤1303处，外延竞争性度量计算装置1203基于选出的关联关系实例来计算对象A和B之间的外延竞争性度量。然后，过程1300结束。

图14示出根据本发明的外延竞争性度量计算***的一个示例1400的详细结构框图，其中详细示出外延竞争性度量计算装置1203的内部结构。图15是示出图14所示外延竞争性度量计算***用于计算外延竞争性度量的操作过程1500的流程图。应该注意，图14所示外延竞争性度量计算装置的内部结构以及图15示出其操作过程仅仅作为外延竞争性度量计算的一个示例，本发明并不局限于，本领域技术人员可以设想任意其他方法和结构用于利用来自外部的关系实例计算对象之间的外延竞争性度量。根据实际应用需求，图14所示外延竞争性度量计算装置1203中的内部元件可以被适当添加、减少、替换、组合或子组合，并且同样可以根据实际应用需求增加或减少图15所示过程中的步骤或改变步骤顺序。

首先参考图14，如图所示，除了与图12所示***相同的部件之外，外延竞争性度量计算装置1203进一步包括关系类别确定单元1401、竞争性参数选择单元1402、竞争性强度计算单元1403、最大强度选择单元1404和外延竞争性度量计算器1405。其中最大强度选择单元1404以虚线形式示出以表示可选模块，其仅在由关系实例选择装置1202选出的与第一对象A和第二对象B相关的关联关系实例可能属于同一信息源文档(即来自新闻或博客网站的文档)的情况下被使用。当针对同一对象对的多个关联关系实例属于同一信息源文档时，只有具有最大竞争性强度的关系实例被用于最终的外延竞争性度量计算。关于最大强度选择单元1404及其功能，随后将详细描述。

竞争性参数选择单元1402被配置用于根据选择的与对象A和B相关的关联关系实例的内容从竞争性强度系数库1207和信息源本体信息库1208分别获取相应的竞争性参数。所述竞争性参数包括：(1)存储在竞争性强度系数库1207中的对应于不同语言现象或描述模式的关系实例的竞争性强度系数W_i(A，B)，以及(2)存储在信息源本体信息库1208中的对应于不同信息源的可信度值C_i，其中I用于标识不同的信息源文档。

下面参考图15来具体描述图14所示外延竞争性度量计算***1400的工作过程。如图所示，类似地，该过程开始于对象获取装置1201从对象数据库1205获取第一对象A和第二对象B(步骤1501)。然后在步骤1502处，关系实例选择装置1202从关系实例库1204中选择与所述第一对象A和第二对象B相关的关联关系实例。如上所述，在一种实现方式中，关系实例选择(过滤)是以某种直观方式执行的，即如果在关系实例中出现了对象A和B的名称或它们的生产者(例如生成产品A和B的公司)的名称，则认为该关系实例是与对象A和B相关的关联关系实例。当然，所述关系实例选择规则仅仅作为一个示例，本发明并不局限于此。本领域技术人员显而易见，根据不同需求，可以设计或提供不同的关系实例选择规则。然后，在步骤1503中，外延竞争性度量计算装置1203中的关系类别确定单元1401确定已经选出的每个关联关系实例的类别，即确定每个关联关系实例的语言描述模式和其所在信息源文档的索引，从而为后面获得适当的竞争性参数做准备。具体而言，来自关系实例库1204的每个关系实例一般可被表示为一个三元组，即R(A，B)＝(RelationType，WeightID，NewsID)，其中RelationType用于指示该关系实例的关系类型，其可以包括竞争关系、合作关系等等。在关系实例选择装置1202选择与对象A和B相关的关联关系实例的过程中，只有关系类型为竞争关系的关系实例被选择。WeightID用于标识该关系实例的语言描述模式，由于不同的语言描述模式可以对应于不同的竞争性强度系数，因此该参数可被用作竞争性强度系数的索引。NewsID用于指示该关系实例所属的信息源文档。由于不同信息源文档具有不同的可信度值，因此该参数可被用作信息源可信度值的索引。因此，竞争性参数选择单元1402可以分别以RelationType和NewsID作为索引对竞争性强度系数库1207和信息源本体信息库1208进行检索，以获得对应于所述对象A和B的竞争性参数，即对应于每个关联关系实例的竞争性强度系数W_i(A，B)和信息源可信度值C_i。

然后，在步骤1505处，竞争性强度计算单元1403计算每个关联关系实例的竞争性强度。在一个实施例中，该竞争性强度可被表示为S_i(A，B)＝W_i(A，B)×C_i，其中i用于标识该关联关系实例所属的信息源文档。这里应该注意，如果有多个对应于对象A和B的关联关系实例属于同一信息源文档，则只有具有最大竞争性度量值的那个关联关系实例被考虑，其余都被忽略。具体来说，在步骤1506中，判断是否有多个对应于对象A和B的关联关系实例属于同一信息源文档。如果有，则在步骤1507中，最大强度选择单元1404选择每个信息源文档i中针对对象A和B的最大竞争性强度值，即

S_{i} (A, B) = \underset{j}{Max} S_{i, j} (A, B), - - - (2)

其中j代表对应于对象A和B的不同关联关系实例在所属信息源文档i中的编号。如果对应于对象A和B的各个关联关系实例分别属于不同的信息源文档，即每个信息源文档中只包含一个关于对象A和B的关联关系实例，则省略最大强度选择单元1404，对应于各个关联关系实例的竞争性强度值S_i(A，B)被直接用于最终的外延竞争性度量计算。

在步骤1508中，根据一个实施例，对象A和B之间的外延竞争性度量被计算为：

S_{out} = Σ_{i = 1}^{N} S_{i} (A, B) / Σ_{i = 1}^{N} S_{i}^{'} - - - (3)

其中N表示所述关系实例库中存储的所有关系实例所属的信息源文档的总数目，S_i(A，B)表示信息源文档i中针对与对象A和B相关的关联关系实例的最大竞争性强度值，S_i′表示信息源文档i中针对所有关系实例(包括与对象A和B相关以及无关的所有关系实例)的最大竞争性强度值。具体而言，S_i′被表示为：

S_{i}^{'} = \underset{A, B}{Max} S_{i} (A, B) - - - (4)

但是，本领域技术人员显而易见，对象A和B之间外延竞争性度量的计算并不局限于上述等式(3)，而是可以根据实际应用需求采用不同的计算方法。例如，为了得到对人类用户而言更有意义的值，可以采取以下对数形式替换上述等式(3)：

S_{out} = \log Σ_{i = 1}^{N} S_{i} (A, B) / \log Σ_{i = 1}^{N} S_{i}^{'} - - - (5)

此外，根据上述等式(3)显而易见，如果在外延竞争性度量计算过程中不考虑不同的语言现象或描述模式对计算结果的影响，并且假设所有关联关系实例具有相同的竞争性强度值1，上述等式(3)的分子则简化为与第一对象A和第二对象B相关的关联关系实例所属的信息源文档的数目，分母简化为所述关系实例库中存储的所有关系实例所属的信息源文档的总数目。从而，对象A和B之间的外延竞争性度量S_out可被简化为与对象A和B相关的关联关系实例所属的信息源文档的数目与所有信息源文档总数目之比，即关联关系实例在所有信息源文档中出现的频率。因此，在某些实施例中，可以用与对象A和B相关的关联关系实例在所有信息源文档中的出现频率来表征对象A和B之间的外延竞争性度量。但是，这仅仅作为外延竞争性度量计算的一个示例，本发明的方法并不局限于此。

然后，在步骤1508中计算出对象A和B之间的外延竞争性度量S_out之后，图15所示过程1500结束。

考虑到从新闻/博客网站提取出的关系实例可能还带有时间、区域/位置或工业领域之类的附加信息，因此可以将对象之间的关系进一步完整地表示为六元组R(A，B)＝(RelationType，WeightID，Domain，Area，Time，NewsID)，其中Domain、Area和Time分别表示该关系实例存在的工业领域、区域和时间。例如，Domain可能指定公司A和公司B之间在“移动电话”领域存在竞争，Area可能指定产品A和产品B之间在中国大陆区域内存在竞争，而Time可能指定产品A和产品B在2002-2003年度内存在竞争等等。这样一来，可以在不同对象之间执行更加详细而具体的竞争性分析，从而支持商业分析过程中所需的多种需求。

图16示出根据本发明用于计算外延竞争性度量的外延竞争性度量计算***的另一示例1600的详细结构框图，与图14所示的***1400相比，该***1600并入了关系实例过滤装置1601和用户接口装置1602，用于根据关联关系实例的附加信息进一步强化对象之间的外延竞争性强度的时间、区域、领域分析。通过用户接口装置1602，用户可以输入特定于时间、区域或领域的过滤规则。关系实例过滤装置1601可以基于输入的过滤规则对由关系实例选择装置1202选择的关联关系实例作进一步过滤，以获取满足特定需求的关系实例。例如，过滤出在特定区域(例如中国大陆)存在竞争关系的对象之间的关系实例，或者过滤出在特定时间段(例如2005年度)存在竞争关系的对象之间的关系实例，等等。这样一来，使得不同对象之间的外延竞争性分析可以更加详细而具体，并且能够针对用户需求。

对于带有时间相关信息的关系实例，基于其竞争性关系分析而得到的最终竞争性度量将带有相应的时间戳，利用该时间戳，可以支持竞争性关系的时间性(依赖于时间的)分析。例如，对象A和B在某一时间段期间彼此竞争，但在该时间段之后变为合作伙伴。

此外，如果已经建立了工业领域本体，则可以认为工业领域信息是竞争性关系计算过程中的一个重要因素。基本上，由于多个领域之间可能形成某一层次结构，因此提取出的关系实例可以沿着领域层次结构(领域和子域之间)传播。所述传播可以通过两种途径，即下行和上行。对于下行传播，优选实施例设定S_i(A，B，dj)＝S_i(A，B，D)，其中领域dj是领域D的一个子域。类似地，对于上行传播，优选实施例设定S_i(A，B，D)＝MaxS_i(A，B，dj)。因此，可以依据工业领域本体指示的多个领域之间的层次结构来计算对象之间在不同领域中的竞争性度量。

此外，对于带有位置/区域信息的关系实例，可以执行类似过程以产生更加详细的关于不同对象(例如公司或产品)之间的竞争性关系的市场区域的信息。

[集成竞争性度量计算]

在根据本发明实施例的集成竞争性度量计算中，提供了一种动态机制将上述外延竞争性度量和内涵竞争性度量组合在一起。由于最终生成的集成竞争性度量不仅反映出对象描述之间的相似性而且反映出来自第三方的意见，因此与纯粹的内涵分析(基于内容的竞争性分析)或外延分析相比，集成竞争性分析可以获得更全面的结果。

图17是根据本发明用于计算集成竞争性度量的集成竞争性度量计算***1700的结构框图。图18是图17所示集成竞争性度量计算***中的合并模块1704的一个示例的详细框图。图19是示出内涵和外延竞争性度量合并过程的一个示例的流程图。

首先参考图17，该集成竞争性度量计算***1700的核心部分在于集成竞争性分析模块170以及为该集成竞争性分析模块170提供支持的多个数据库，即对象数据库1705、内涵竞争性度量数据库1706、外延竞争性度量数据库1707、信息源本体信息库1708、加权系数库1709和集成竞争性度量数据库1710。所述集成竞争性分析模块170由对象获取模块1701、内涵竞争性分析模块1702、外延竞争性分析模块1703以及合并模块1704组成。其中内涵竞争性分析模块1702可以采取图1所示内涵竞争性度量计算***100的内部组成结构，但是本发明并不局限于此。本领域技术人员已知的其他内涵竞争性度量计算技术均可被用于实现本发明的内涵竞争性分析模块1702。外延竞争性分析模块1703可以采取图12所示外延竞争性度量计算***1200的内部组成结构，但是本发明并不局限于此。本领域技术人员已知的其他外延竞争性度量计算技术均可被用于实现本发明的外延竞争性分析模块1703。

如图17所示，对象获取模块1701首先从对象数据库1705获取第一对象A和第二对象B。获取的对象A和B被分别输入到内涵竞争性分析模块1702和外延竞争性分析模块1703以分别计算对象A和B之间的内涵竞争性度量S_in和外延竞争性度量S_out。计算出的内涵竞争性度量S_in和外延竞争性度量S_out被分别存储在内涵竞争性度量数据库1706和外延竞争性度量数据库1707中。然后合并模块1704分别从内涵竞争性度量数据库1706和外延竞争性度量数据库1707提取出对象A和B之间的内涵竞争性度量Sin和外延竞争性度量S_out，并利用某种动态机制将两者合并，以生成最终的集成竞争性度量。生成的对象A和B之间的集成竞争性度量被存储在集成竞争性度量数据库1710中。

下面将参考图18和19具体描述合并模块1704的结构及其工作过程。

如图18所示，在该示例中，合并模块1704包括数据质量分析单元1801、加权系数获取单元1802和集成竞争性度量计算单元1803。参考图19，已经分别由内涵竞争性分析模块1702和外延竞争性分析模块1703计算出的内涵竞争性度量S_in和外延竞争性度量S_out被输入到合并模块1704(步骤1901)。然后，在步骤1902处，数据质量分析单元1801对来自外延竞争性分析模块1703的与第一和第二对象A和B相关的关联关系实例进行数据质量分析。具体而言，数据质量分析单元1801参考信息源本体信息库1708中关于各个信息源的可信度值来分析由外延竞争性分析模块1703提供的关联关系实例的数据质量。

数据质量评价在子度量(即内涵度量和外延度量)的组合过程中起到非常重要的作用，因为在外延和内涵语义分析结果之间可能存在不一致性。例如，根据外延竞争性分析，两个公司可能具有非常强的竞争性关系，但是从内涵竞争性分析的角度看，这两个公司可能几乎不具有任何相似特征，即它们彼此无竞争。要解决这个问题，需要采用某种动态机制来平衡相应内涵和外延竞争性分析结果之间的不一致性，这主要依赖于以下两个方面：(1)数据质量评价结果(即分析相应信息源的可信度)；(2)附加信息统计分析，所述附加信息包括时间信息、领域信息和市场(区域)信息，其中通过领域划分、市场区域划分和时间段划分，可以获得更加准确的竞争性分析结果。例如，两个公司A和B在某一时间段内在特定市场上竞争，但是在当前状况下，两个公司A和B之一已经退出该市场，从而两者之间不再有竞争。

返回图19，在步骤1902处获得关于关联关系实例的数据质量分析结果之后，在步骤1903处确定加权策略，例如，在一个示例中，加权系数获取单元1802从加权系数库1709获得分别用于内涵和外延竞争性度量的加权系数W_in和W_out。然后在步骤1904处，集成竞争性度量计算单元1803对内涵和外延竞争性度量S_in和S_out应用已经确定的加权策略(即获取的加权系数)以计算集成竞争性度量S。在该示例中，集成竞争性度量S被计算为：

S＝S_in×W_in+S_out×W_out (6)

以上方法使得能够确保子度量组合可被动态调整。但是，以上采取自适应加权系数调整竞争性子度量(内涵和外延度量)的方法仅仅作为一个示例。本领域技术人员容易理解，根据实际需求的变化，可以采取其他加权策略来平衡内涵和外延竞争性度量之间的不一致性。

最后，由竞争性度量计算单元1803计算出的集成竞争性度量S被存储到集成竞争性度量数据库1710中(参见图18)。

另外，需要指出的是，与上述外延竞争性度量计算类似，由于作为内涵和外延竞争性分析的结果的竞争性度量可以集成有相应的时间信息、工业领域信息和位置/区域相关信息，因此集成竞争性度量计算同样可以对对象之间的竞争性执行多维(即时间、领域、区域)分析。

以上分别对根据本发明的内涵、外延以及集成竞争性度量计算进行了详细描述。图20是被用于实现本发明的计算机***2000的示意性框图。如图所示，该计算机***2000包括CPU2001、用户接口2002、***设备2003、存储器2005、永久存储设备2006以及将它们彼此相连的总线2004。存储器2005中包含信息提取模块、竞争性分析模块、对象收集模块、竞争性智能相关应用模块和操作***(OS)等等。永久存储设备2006存储了本发明所涉及的各种数据库，例如本体信息库、竞争加权策略数据库、对象数据库、关系实例库以及竞争性度量数据库等等。与本发明紧密相关的部分在图中以粗实线标示出，其中所述竞争性分析模块可以是图1所示的内涵竞争性分析模块、图12所示的外延竞争性分析模块或者图17所示的集成竞争性分析模块。另外，永久存储设备2006还可以包括其他存储设备。

以上分别描述了根据本发明的对象(例如产品/公司)之间的内涵竞争性度量计算、外延竞争性度量计算以及集成(组合)竞争性度量计算，根据上述描述可以看出，本发明具有以下效果：

在采取直接方式的内涵竞争性度量计算中，代表不同对象的描述通过属性对准被直接比较，其提供了一种将相似性计算领域中的基于单词(基于VSM)的方法和基于属性的方法相结合的灵活机制。这使得根据本发明的竞争性度量计算方法能够处理具有异构的结构化(属性值)和/或非结构化(明文文本)描述的对象。另外，这种直接方式的内涵竞争性度量计算能够尽可能多地利用描述数据质量来提高最终竞争性度量的精确性。

通过间接方式的内涵竞争性度量计算，来自世界范围内竞争者的不同语言的描述之间的语言障碍被克服。而且，由于使用了公共的分类层次结构(即对象类别树)作为竞争性度量计算的中介，与逐个描述比较的方式相比，可以大大提高计算效率。另外，在间接方式的竞争性度量计算中，不存在直接的查询/文档翻译(在跨语言信息获取领域中经常采用的)，因此现有技术中的相应缺陷，例如未知单词的翻译和基于翻译的方法的复杂性以及基于文集的方法中无法获得足够的并行文集的问题，可以被克服。

值得注意的是，本发明的竞争性度量计算方法也可以被应用到相似性计算，以提高当前相似性度量计算技术的精确性。

上面已经参考附图描述了根据本发明的具体实施例。但是，本发明并不限于图中示出的特定配置和处理。例如，在计算不同属性之间的竞争性子度量的过程中，除了基于VSM和基于属性的方法之外，其它本领域公知的相似性度量技术也可被应用。并且，为了简明起见，这里省略对这些已知方法技术的详细描述。

在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明的元素可以实现为硬件、软件、固件或者它们的组合，并且可以用在它们的***、子***、部件或者子部件中。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而***体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种用于计算对象之间的竞争性度量的方法，该方法包括以下步骤：

获取第一对象和第二对象；

从关系实例库中存储的所有关系实例中选择与所述第一对象和第二对象相关的关联关系实例；并且

基于选择的所述关联关系实例来计算所述第一和第二对象之间的外延竞争性度量S_out，作为所述第一和第二对象之间的所述竞争性度量。

2.如权利要求1所述的方法，其中计算所述第一和第二对象之间的外延竞争性度量S_out包括计算所述与第一对象和第二对象相关的关联关系实例所属的信息源文档的数目与所述关系实例库中存储的所有关系实例所属的信息源文档的总数目之比，作为所述第一和第二对象之间的外延竞争性度量S_out。

3.如权利要求1所述的方法，其中选择出的与所述第一对象和第二对象相关的各个关联关系实例分别属于不同的信息源文档，并且计算所述所述第一和第二对象之间的外延竞争性度量S_out包括：

确定每个与所述第一对象和第二对象相关的关联关系实例的关系类别；

基于确定的所述关系类别，获取对应于每个所述关联关系实例的竞争性强度系数W_i(A，B)以及该关联关系实例所属的信息源文档的可信度值C_i，其中i表示该关联关系实例所属的信息源文档；

计算每个所述关联关系实例的竞争性强度值S_i(A，B)＝W_i(A，B)×C_i；并且

针对所述关系实例库中存储的所有关系实例所属的所有信息源文档计算所述第一和第二对象之间的外延竞争性度量：

S_{out} = Σ_{i = 1}^{N} S_{i} (A, B) / Σ_{i = 1}^{N} S_{i}^{'}

其中N表示所述关系实例库中存储的所有关系实例所属的信息源文档的总数目，

表示信息源文档i中针对所有关系实例的最大竞争性强度值，A、B分别代表第一对象和第二对象。

4.如权利要求1所述的方法，其中选择出的与所述第一对象和第二对象相关的各个关联关系实例可以属于相同的信息源文档，并且计算所述所述第一和第二对象之间的外延竞争性度量S_out包括：

基于确定的所述关系类别，获取对应于每个所述关联关系实例的竞争性强度系数W_i，j(A，B)以及该关联关系实例所在的信息源文档的可信度值C_i，其中i表示该关联关系实例所属的信息源文档，j表示该关联关系实例在该信息源文档i中的编号；

计算每个所述关联关系实例的竞争性强度值S_i，j(A，B)＝W_i，j(A，B)×C_i；

选择每个信息源文档i中的针对所述第一和第二对象的最大竞争性强度值

S_{i} (A, B) = \underset{j}{Max} S_{i, j} (A, B);

并且

S_{out} = Σ_{i = 1}^{N} S_{i} (A, B) / Σ_{i = 1}^{N} S_{i}^{'}

5.如权利要求3或4所述的方法，其中所述第一和第二对象之间的外延竞争性度量被计算为：

S_{out} = \log Σ_{i = 1}^{N} S_{i} (A, B) / \log Σ_{i = 1}^{N} S_{i}^{'} .

6.如权利要求1所述的方法，其中所述关系实例包含附加信息，所述方法还包括：

基于所述附加信息对选择的与所述第一对象和第二对象相关的关联关系实例进行过滤，以选择其附加信息满足一个或多个预定条件的关联关系实例，

其中所述附加信息是时间信息、区域信息和领域信息中的至少一种。

7.如权利要求6所述的方法，其中所述附加信息是时间信息，所述过滤包括选择一段特定时间内的与所述第一和第二对象相关的关联关系实例。

8.如权利要求6所述的方法，其中所述附加信息是区域信息，所述过滤包括选择符合特定区域的与所述第一和第二对象相关的关联关系实例。

9.如权利要求6所述的方法，其中所述附加信息是领域信息，所述过滤包括选择符合特定领域的与所述第一和第二对象相关的关联关系实例。

10.如权利要求1所述的方法，还包括：

计算所述第一对象和第二对象之间的内涵竞争性度量S_in；以及

合并所述内涵竞争性度量S_in和所述外延竞争性度量S_out，以得到集成竞争性度量S，作为所述第一和第二对象之间的所述竞争性度量。

11.如权利要求10所述的方法，其中所述第一对象和第二对象分别具有各自包含多个属性的第一描述和第二描述，计算所述内涵竞争性度量S_in包括：

利用本体信息规范化所述第一描述和第二描述；以及

基于所述规范化的第一描述和第二描述来计算所述第一对象和第二对象之间的内涵竞争性度量S_in。

12.如权利要求10所述的方法，其中合并所述内涵竞争性度量S_in和所述外延竞争性度量S_out包括：

对选择的与所述第一对象和第二对象相关的关联关系实例进行数据质量分析以确定集成策略；

根据确定的所述集成策略来计算所述集成竞争性度量S。

13.如权利要求12所述的方法，其中计算所述集成竞争性度量S包括：

根据确定的所述集成策略获取分别对应于所述内涵竞争性度量S_in和所述外延竞争性度量S_out的内涵加权系数W_in和外延加权系数W_out；并且

加权求和以计算所述集成竞争性度量S＝S_in×W_in+S_out×W_out。

14.一种用于计算对象之间的竞争性度量的***，该***包括：

对象获取装置，用于获取第一对象和第二对象；

关系实例库，用于存储关系实例；

关系实例选择装置，用于从所述关系实例库中存储的所有关系实例中选择与所述第一对象和第二对象相关的关联关系实例；以及

外延竞争性度量计算装置，用于基于选择的所述关联关系实例来计算所述第一和第二对象之间的外延竞争性度量S_out，作为所述第一和第二对象之间的所述竞争性度量。

15.如权利要求14所述的***，其中所述外延竞争性度量计算装置被配置为计算所述与第一对象和第二对象相关的关联关系实例所属的信息源文档的数目与所述关系实例库中存储的所有关系实例所属的信息源文档的总数目之比，作为所述第一和第二对象之间的外延竞争性度量S_out。

16.如权利要求14所述的***，其中选择出的与所述第一对象和第二对象相关的各个关联关系实例分别属于不同的信息源文档，并且所述外延竞争性度量计算装置包括：

关系类别确定单元，用于确定每个与所述第一对象和第二对象相关的关联关系实例的关系类别；

竞争性参数选择单元，用于基于确定的所述关系类别，获取对应于每个所述关联关系实例的竞争性强度系数W_i(A，B)以及该关联关系实例所属的信息源文档的可信度值C_i，其中i表示该关联关系实例所属的信息源文档；

竞争性强度计算单元，用于计算每个所述关联关系实例的竞争性强度值S_i(A，B)＝W_i(A，B)×C_i；并且

外延竞争性度量计算器，用于针对所述关系实例库中的所有信息源文档计算所述第一和第二对象之间的外延竞争性度量：

S_{out} = Σ_{i = 1}^{N} S_{i} (A, B) / Σ_{i = 1}^{N} S_{i}^{'}

表示信息源文档i中针对所有关系实例的最大竞争性强度值。

17.如权利要求14所述的***，其中选择出的与所述第一对象和第二对象相关的各个关联关系实例可以属于相同的信息源文档，并且所述外延竞争性度量计算装置包括：

竞争性参数选择单元，基于确定的所述关系类别，获取对应于每个所述关联关系实例的竞争性强度系数W_i，j(A，B)以及该关联关系实例所在的信息源文档的可信度值C_i，其中i表示该关联关系实例所属的信息源文档，j表示该关联关系实例在该信息源文档i中的编号；

竞争性强度计算单元，用于计算每个所述关联关系实例的竞争性强度值S_i，j(A，B)＝W_i，j(A，B)×C_i；

最大强度选择单元，用于选择每个信息源文档i中的针对所述第一和第二对象的最大竞争性强度值

S_{i} (A, B) = \underset{j}{Max} S_{i, j} (A, B);

S_{out} = Σ_{i = 1}^{N} S_{i} (A, B) / Σ_{i = 1}^{N} S_{i}^{'}

表示信息源文档i中针对所有关系实例的最大竞争性强度值。

18.如权利要求16或17所述的***，其中所述外延竞争性度量计算器被配置为按下式计算所述外延竞争性度量：

S_{out} = \log Σ_{i = 1}^{N} S_{i} (A, B) / \log Σ_{i = 1}^{N} S_{i}^{'} .

19.如权利要求14所述的***，其中所述关系实例包含附件信息，所述***还包括：

耦合到所述关系实例选择装置的关系实例过滤装置，用于基于所述附加信息对选择的与所述第一对象和第二对象相关的关联关系实例进行过滤，以选择其附加信息满足预定要求的关联关系实例，

20.如权利要求19所述的***，其中所述附加信息是时间信息，所述关系实例过滤装置被配置为选择一段特定时间内的与所述第一和第二对象相关的关联关系实例。

21.如权利要求19所述的***，其中所述附加信息是区域信息，所述关系实例过滤装置被配置为选择符合特定区域的与所述第一和第二对象相关的关联关系实例。

22.如权利要求19所述的***，其中所述附加信息是领域信息，所述关系实例过滤装置被配置为选择符合特定领域的与所述第一和第二对象相关的关联关系实例。

23.如权利要求14所述的***，还包括：

内涵竞争性度量计算装置，用于计算所述第一对象和第二对象之间的内涵竞争性度量S_in；以及

合并装置，用于合并所述内涵竞争性度量S_in和所述外延竞争性度量S_out，以得到集成竞争性度量S，作为所述第一和第二对象之间的所述竞争性度量。

24.如权利要求23所述的***，其中所述第一对象和第二对象分别具有各自包含多个属性的第一描述和第二描述，所述内涵竞争性度量计算装置包括：

本体信息库，用于存储特定于领域的本体信息；

规范化单元，用于利用来自所述本体信息库的本体信息规范化所述第一描述和第二描述；以及

内涵竞争性度量计算单元，用于基于所述规范化的第一描述和第二描述来计算所述第一对象和第二对象之间的内涵竞争性度量S_in。

25.如权利要求23所述的***，其中所述合并装置包括：

数据质量分析单元，用于对选择的与所述第一对象和第二对象相关的关联关系实例进行数据质量分析以确定集成策略；以及

集成竞争性度量计算器，用于根据确定的所述集成策略来计算所述集成竞争性度量S。

26.如权利要求25所述的***，其中所述集成竞争性度量计算器包括：

加权系数获取单元，用于根据所述数据质量分析单元确定的所述集成策略来获取分别对应于所述内涵竞争性度量S_in和所述外延竞争性度量S_out的内涵加权系数W_in和外延加权系数W_out；以及

集成竞争性度量计算单元，用于计算所述集成竞争性度量S＝S_in×W_in+S_out×W_out。