CN102411604A - 一种大规模协同知识处理方法和*** - Google Patents

一种大规模协同知识处理方法和*** Download PDF

Info

Publication number
CN102411604A
CN102411604A CN2011102353663A CN201110235366A CN102411604A CN 102411604 A CN102411604 A CN 102411604A CN 2011102353663 A CN2011102353663 A CN 2011102353663A CN 201110235366 A CN201110235366 A CN 201110235366A CN 102411604 A CN102411604 A CN 102411604A
Authority
CN
China
Prior art keywords
information
answer
evidence
value
answer information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102353663A
Other languages
English (en)
Inventor
朝乐门
张勇
邢春晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2011102353663A priority Critical patent/CN102411604A/zh
Publication of CN102411604A publication Critical patent/CN102411604A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大规模协同知识处理方法和***,该方法包括以下步骤:接收问题信息和背景信息;接收参与者给出的答案信息和证据信息;接收对所述答案信息、证据信息和/或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息;根据所述不同版本的答案信息、证据信息和背景信息的评分值和所述评分值的评分者的可信度值计算所述不同版本的答案信息、证据信息和背景信息的可信度值,选出最优答案信息;更新提供所述答案信息的参与者的可信度值。根据本发明的方法和***,能够较好地满足以“问题为中心”的数据建模过程的需要,更好地适应现代信息技术的发展模式,更加符合现代知识库建设的规律。

Description

一种大规模协同知识处理方法和***
技术领域
本发明涉及知识工程领域,具体涉及一种基于面向大规模协同知识处理的数据模型的知识处理方法和***。 
背景技术
知识处理是知识工程中的一个重要环节,协同知识处理又分为“大规模协同知识处理”与“小规模协同知识处理”。“大规模协同知识处理”与“小规模协同知识处理”的区别在于协同知识处理范围是否在开放环境中进行,是否延伸至知识链的长尾(The Long Tail)。如果协同知识处理范围仅限于封闭式环境中,或仅限于知识链的头部,那么称之为“小规模协同知识处理”,反之称为“大规模协同知识处理”。“大规模协同知识处理”易于推动“知识涌现”,具有开放性、自组织性、不确定性、演化性、涌现性等特点,可以更好地支持知识生态***。大规模协同知识处理过程的基本步骤如图1所示:1)组织知识链的头部主体向长尾主体公布“问题”及其“背景信息”,包括相关知识、原始数据和限制条件。2)长尾主体可以学习、使用、评分或更新“问题”及其“背景信息”。同时,组织知识管理***应把长尾主体的评分和更新内容实时地存入组织知识库中,并且保证长尾主体操作的透明性、可跟踪性和回溯性,从而在长尾主体之间建立信任关系,保证组织知识的积累。3)组织采取适当的激励措施鼓励长尾主体积极参与“问题”研讨活动。4)长尾主体在参与研讨过程中,相互启发、相互激励,能更加积极地参与组织知识处理过程,共享自己的知识和创造新知识。长尾主体共享或创新的知识自动存入组织知识库之中,成为组织知识的一部分。5)头部主体不仅可以直接参与研讨活动,而且还可以引导、协调和监督研讨活动。6)当长尾主体共享和创新的知识大于或接近于头部主体时,组织知识生态环境将发生根本性的变化:组织在长尾主体中可以发现更适合组织发展的高端人才;组织内 部知识型员工会因为来自长尾主体的压力,主动共享自己的知识,更加积极参与组织知识处理过程。 
目前,对于数据模型构建方法可以分为两个层次:概念层次和数据层次。所谓概念层次的数据模型构建方法,就是按用户观点对数据和信息进行建模,是现实世界到信息世界的第一层抽象。所谓数据层次的数据模型构建方法,就是按计算机***的观点对数据进行建模,是现实世界数据特征的抽象。概念层次的数据模型以及构建模型的现有方法包括:实体联系模型(Entity Relationship Model,ERM)、语义对象模型(Semantic Object Modeling,SOM)、对象角色模型(Object Role Modeling,ORM)、面向对象模型(Object-Oriented Modeling,OOT)、Fedora内容模型架构(The Fedora Content Model Architecture,Fedora CMA)和数字空间(DSpace)数据模型构建方法。 
图2表示了实体联系模型的组成要素及其图示方法。实体联系模型的特点是以“实体”、“联系”、“属性”为三个基本要素来刻画客观世界。实体联系模型构建方法的优点是简单明了,可以较好地满足关系数据库设计的需要,其缺点是无法表示大规模协同知识处理中的主体交互与内容演化过程。 
语义对象模型类似于实体联系模型,主要区别在于语义对象模型中并不包括“联系”,所有的“联系”由语义对象链接属性(Semantic Object Link,SOL)来表示。语义对象模型构建方法的优点在于“联系”和“属性”的表示方法的统一,但其缺点仍为无法表示大规模协同知识处理中的主体交互与内容演化过程。 
对象角色模型强调的是对象的“角色”,而不是其“属性”。在这种方法构建模型时,每个对象均配有一个或多个角色。对象角色模型方法的优点是符合从事具体业务非技术人员的认知规律,方便了业务人员参与数据模型的设计和修改工作,但是其缺点是无法表示大规模协同知识处理中的“问题”、“答案”、“证据”、“背景信息”的演化过程。 
面向对象模型构建方法强调采用人类在认识客观世界的过程中普遍运用的思维方法,直观、自然地描述客观世界中的有关事物,其基本特征主要有抽象性、封装性、继承性和多态性,具有易于理解、维护方便、重用性好等优点。面向对象建模方法的缺点是针对性不强,没有明确规定大规模协同知 识处理中的组成要素、主体交互、内容演化过程。 
Fedora内容模型架构的特点是定义了四种类型数字对象,即内容模型对象(Content Model Object)、数据对象(Data Object)、服务定义对象(Service Definition Object)和服务部署对象(Service Deployment Object)。其中,内容模型对象是数据对象所对应的“类”;服务定义对象对内容模型对象中的服务进行了定义,但不提供具体实现;服务部署对象中提供了服务定义对象的具体实现方式。Fedora内容模型架构较好地满足了数字资源长期保存的需要,但无法表示大规模协同知识处理的组成要素、主体交互和内容演化过程。 
DSpace数据模型以社区(Communities)、馆藏(Collections)、条目(Items)、比特流包(Bundles of Bitstreams)、比特流(Bitstreams)为单位对机构数字资源进行建模,对机构数字资源长期保存提供了简单、实用、高效的解决方案。DSpace数据模型构建方法的缺点是不易于实现大规模协同知识处理的要素、交互和演化过程的表示。 
尽管上述方法各自有其自身的优缺点,并且各自在不同的情况下有成功运用的案例,但是它们无法满足大规模协同知识处理过程的特殊需要:首先,大规模协同知识处理是“问题导向”的,由发起人提出一个“问题”,并提供其相关知识、原始数据和限制条件等背景信息,所有主题围绕该“问题”展开深入讨论,但是上述方法均为“数据”导向的数据模型构建方法。其次,大规模协同知识处理强调的是人机互补,数据模型不仅要针对计算机主体而且也要针对人类主体,但是上述方法均为面向计算机主体的数据模型构建方法。再次,大规模协同知识处理强调的是演化和涌现,需要的是一种“数据在先,模式在后”的方式,但是上述方法均为“模式在先,数据在后”的数据模式。最后,大规模协同知识处理强调的是一种“pay-as-you-go(现收现付)”的设计模式,只有当用户认为必要时候,才会纳入知识库中,但是上述方法均为“pay-before-you-go(先行支付)”的设计模式。 
发明内容
本发明所要解决的技术问题是需要提供一种大规模协同知识处理方法和***,以表示大规模协同知识处理的组成要素、主体交互和内容演化过程。 
为了解决上述技术问题,本发明提供了一种协同知识处理方法,其特征在于,包括以下步骤:步骤1,接收问题信息和与所述问题信息相关的背景信息;步骤2,接收参与者针对所述问题信息给出的答案信息和证据信息;步骤3,接收对所述答案信息、证据信息和/或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息;步骤4,根据所述不同版本的答案信息、证据信息和背景信息的评分值和所述评分值的评分者的可信度值计算所述不同版本的答案信息、证据信息和背景信息的可信度值,根据所述不同版本的答案信息的可信度值和评分值以及证据信息的可信度值选出最优答案信息;步骤5,根据所述不同版本的答案信息的可信度值更新提供所述答案信息的参与者的可信度值。 
本发明还提供了一种协同知识处理***,其特征在于,包括以下模块:发起模块,其接收问题信息和与所述问题信息相关的背景信息;参与模块,其接收参与者针对所述问题信息给出的答案信息和证据信息;修改补充模块,其接收对所述答案信息、证据信息和/或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息;最优答案信息选择模块,其根据所述不同版本的答案信息、证据信息和背景信息的评分值和所述评分值的评分者的可信度值计算所述不同版本的答案信息、证据信息和背景信息的可信度值,根据所述不同版本的答案信息的可信度值和评分值以及证据信息的可信度值选出最优答案信息;可信度值更新模块,其根据所述不同版本的答案信息的可信度值更新提供所述答案信息的参与者的可信度值。 
综上,本发明的主要优点在于:1)突破了“数据导向”的数据模型构建方法,提出了一种“问题导向”数据建模新方法,能够较好地满足以“问题为中心”的数据建模过程的需要,以“问题”为中心组织相关知识、原始数据、限制条件、答案、答案证据、参与者、日志等数据。2)充分考虑了在知识处理过程中的人机互补性,其知识表示采用两种不同的形式。3)采取一种“数据在先,模式在后”的方式,对问题、答案和证据的具体表现形式不做任何限制,可以更好地适应现代信息技术的发展模式。4)采取一种pay-as-you-go的设计模式,改变了目前数据模型构建中的pay-before-you-go的设计模式,更加符合现代知识库建设的规律。因此,与前述数据模型构建 方法相比,本发明可以更好地满足大规模协同知识处理的需要。 
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。 
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中: 
图1是现有技术中的大规模协同知识处理过程的示意图; 
图2是现有技术中的实体联系模型的三个要素及其表示方法示意图; 
图3是根据本发明实施例一的面向大规模协同知识处理的数据模型的示意图; 
图4是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘话题’示意图; 
图5是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘参与者’示意图; 
图6是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘问题’示意图; 
图7是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘背景信息’示意图; 
图8是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘答案’示意图; 
图9是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘证明’示意图; 
图10是根据本发明实施例一的面向大规模协同知识处理数据模型中的‘日志’示意图; 
图11根据本发明实施例一的协同知识处理方法的流程图; 
图12根据本发明实施例二的协同知识处理***的结构示意图。 
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。 
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。 
实施例一 
首先参照图3至图10来说明本实施例中的面向大规模协同知识处理的数据模型,图3为本实施例中的面向大规模协同知识处理的数据模型示意图,如图3所示,该模型包括“话题信息、领域本体、参与者、问题信息、背景信息、答案信息、证据信息和日志信息”八个要素(在下文中简称为“话题、领域本体、参与者、问题、背景信息、答案、证据和日志”)。“话题”可以是领域本体中的类名或实例名称,例如学术术语、生活用语、社会现象或一则新闻等。“话题”与“领域本体”之间的关联不仅可以避免话题的歧义性,而且还可以更好地支持话题聚类分析。“参与者”代表的是参与大规模协同知识处理的主体,可以是计算机,也可以是人类用户。“问题”是指针对话题提出的具体问题,可以归为七类,即‘为什么’、‘什么是’、‘如何’、‘什么时候’、‘什么地方’、‘谁’和‘是否’类问题。“问题”的分类是提高数据挖掘和检索效率的重要基础。“背景信息”是指问题发起人提供的回答问题所需要的相关知识、原始数据和限制条件。“背景信息”是提供大规模协同知识处理的效率和效果的重要依据。“答案”记录的是大规模协同知识处理中针对某个问题提出的答案的信息。“答案”可以由某个参与者提出,其他参与者协助补充和完善。“证据”是针对特定“答案”的, 由该“答案”的提出者、修改者、评分者提供的相关证据。“日志”用于记录“答案”和“证据”的访问、添加、更新、评分等行为,支持版本回溯和行为挖掘。一个“问题”不仅可以有多个“背景信息”、“答案”或“证据”,而且同一个“背景信息”、“答案”或“证据”也可以有多个不同版本。 
图4为本实施例中面向大规模协同知识处理数据模型中的“话题”示意图,如图4所示,“话题”是大规模协同知识处理中“问题”所指向的客体,对应领域本体中的一个类名或实例名。“话题”中需要定义的关键属性有三个:话题URI(通用资源标志符)、话题名称、语义关联。话题URI用于唯一标识一个话题。话题名称为可以是一个关键词或短语,只要体现“话题”的特征即可。语义关联是指“话题”与领域本体之间的关联关系,可以用OWL语言(Web Ontology Language)表示。 
‘话题URI’的生成可采用相对URI或绝对URI,也可以采用统一资源定位符(URL)来代替URI。‘话题名称’只要定义为字符串型数据类型即可,也可以采用正则表达式进行统一验证。OWL语言可以表示多种‘语义关联’,包括类之间的继承、等同、交叉关系(<rdfs:subclassOf>、<owl:equivalentClass>、<owl:disjointWith>)、属性之间的继承、等同、互逆关系(<rdfs:subPropertyOf>、<owl:equivalentProperty>、<owl:inverseOf>)、属性与类之间关系(<rdfs:domain>、<rdfs:range>)、类与实例之间关系(<rdf:Description>、<rdf:type>)、概念间的传递、对称、函数和反函数关系(owl:TransitiveProperty,owl:SymmetricProperty、owl:FunctionalProperty和owl:InverseFunctionalProperty)、概念间的集合运算关系(<owl:unionOf>、<owl:intersectionOf>、<owl:complementOf>)、概念间的版本关系(<owl:priorVersion>)。利用“话题”与“领域本体”之间的语义关联不仅可以消除“话题”的歧义性,而且利用这种语义关联可以深度挖掘话题数据,如话题聚类分析等。 
图5是本实施例中面向大规模协同知识处理数据模型中的“参与者”示意图,如图5所示,“参与者”中需要记录参与者的URI、参与者名称、可信度和FOAF连接信息。‘参与者URI’用来唯一标识参与者,可采用相 对URI或绝对URI,也可以采用统一资源定位符(URL)来代替URI。‘参与者名称’中记录参与者在参与本次大规模协同知识处理过程时所采用的昵称。‘FOAF连接信息’中记录指向用户FOAF信息的指针,可以采用<foaf:PersonalProfileDocument>元素标记参与者的个人简历文件地址。‘参与者的可信度’采用量化表示,具体数值可以根据参与者在每次参与大规模协同知识处理过程中可信度来计算。具体公式如下: 
Cp(i,j)=Cp(i,j-1)+Cq(i,j)       (1) 
其中,Cp(i,j)表示第i个参与者参与第j次大规模协同知识处理过程之后的累计可信度,Cp(i,j-1)表示该参与者在第j-1次参与大规模协同知识处理之前的可信度,Cq(i,j)表示该参与者在第j次大规模协同知识处理过程中得到的可信度。 
Cq(i,j)的计算公式如下: 
Cq ( i , j ) = &Sigma; k = 1 n p ( k ) n &times; 100 - - - ( 2 )
其中,p(k)表示第k个参与者对第i个参与者参与第.j次大规模协同知识处理过程给出的评分分数,0≤k≤n,n为评分人数,-100≤p(k)≤100。 
图6是本实施例中面向大规模协同知识处理数据模型中的“问题”示意图,如图6所示,“问题”中需要记录问题URI、问题内容、问题类型、发起人、开始时间、截至时间、问题状态、问题关联、话题URI等关键属性。‘问题URI’用于唯一标识一个“问题”,是区分不同“问题”的唯一标志。‘问题内容’是指“问题”的具体内容,应支持两种不同的形式存储,即面向计算机理解的提问表达方法(如受控语言、SPARQL语法等)和面向人类主体理解的提问表达方法(如自然语言、图片、动画等)。‘发起人’中记录发起此“问题”的参与者的URI。‘问题类型’可以是以下七种问题类型之一:为什么’、‘什么是’、‘如何’、‘什么时候’、‘什么地方’、‘谁’和‘是否’(what,why,when,where,who,how,yes/no)等。‘开始时间’和‘结束时间’分别记录了一次大规模***知识处理的开始时间和结束时间。‘问题状态’中记录问题是否已经回答完毕或超出了有效期,从 集合{‘尚未开始’、‘讨论中’、‘已回答’、‘作废’、‘已过期’}中选择一个状态。‘问题关联’记录了问题之间的关系,包括‘分解关系’和‘演化关系’。‘话题URI’中记录的该“问题”对应的“话题”,便于跟踪“话题”和同一个“话题”之下的不同“问题”之间相互参考。“问题”与“话题”之间的对应关系为N∶N。 
图7是本实施例中面向大规模协同知识处理数据模型中的“背景信息”示意图,如图7所示,“背景信息”中需要记录发起人在提出“问题”时提供的相关知识、原始数据和约束条件。“背景信息”的格式和位置不限,格式上可以是文本、图片、视频等多种形式;位置上可以是本地存储,也可以远程存储。对于远程存储的“背景信息”,只要记录远程数据的URI或URL即可。为了方便计算机理解“背景信息”的语义内容,特设属性‘规则’,用来记录面向计算机理解的规则数据。此外,采用三元组{‘背景信息URI’,‘修改者URI’,‘修改时间’}来区分同一个“背景信息”的不同版本。“背景信息”的可信度值的计算方法如下: 
Cc ( k , i ) = Cc ( k , i - 1 ) + W ( s ) &times; Cs ( k , 0 ) &times; Cp ( k , 0 ) 100 + W ( o ) &times; &Sigma; j = 0 n Cs ( j ) &times; Cp ( j , i ) n &times; 100 - - - ( 3 )
其中Cc(k,i)和Cc(k,i-1)分别表示第k条背景信息(k≥0)被第i次和第i-1(i≥1)次修改后的可信度,Cs(k,0)和Cs(k,j)分别代表的是问题发起人和第j个评分者(1≤j≤N,N为评分人数)对此项背景信息的评分值,取值范围为-100≤Cs(k,0)≤100,-100≤Cs(k,j)≤100,Cp(k,0)和Cp(j,i)分别代表的是问题发起人和第j个评分者在对此项背景信息进行评分时的可信度,取值范围为0≤Cp(k,0)≤1和0≤Cp(j,i)≤1,W(s)和W(o)分别代表问题发起人和评分者的权重,取值范围为0≤W(s)≤1和0≤W(o)≤1。 
图8是本实施例中面向大规模协同知识处理数据模型中的“答案”示意图,如图8所示,“答案”中需要记录自身的URI之外,还记录问题URI、答案内容、最后修改者URI、最后更新时间、可信度等信息。‘问题URI’用于记录“答案”对应的“问题”。‘答案内容’的格式和位置不限,可以直接记录答案内容,也可以记录答案的URI或URL地址。‘最后修改者URI’中记录负责修改此答案的最后一个参与者。为了方便跟踪和恢复“答 案”数据,采用三元组{‘答案URI’,‘修改者URI’,‘修改时间’}来区分同一个答案的不同版本。‘可信度’中记录该版本“答案”的可信度值,具体计算方法如下: 
Ca ( k , i ) = Ca ( k , i - 1 ) + W ( s ) &times; Ca ( k , 0 ) &times; Cp ( k , 0 ) 100 + W ( o ) &times; &Sigma; j = 0 n Ca ( j ) &times; Cp ( j , i ) n &times; 100 - - - ( 4 )
其中Ca(k,i)和Ca(k,i-1)分别表示第k个答案(k≥0)被第i次和第i-1(i≥1)次修改后的可信度值,Ca(k,0)和Ca(k,j)分别代表的是问题发起人和第j个评分者(1≤j≤N,N为评分人数)对此项答案的评分值,取值范围为-100≤Ca(k,0)≤100,-100≤Ca(k,j)≤100,Cp(k,0)和Cp(j,i)分别代表的是问题发起人和第j个评分者在对此项答案进行评分时的可信度,取值范围为0≤Cp(k,0)≤1和0≤Cp(j,i)≤1,W(s)和W(o)分别代表问题发起人和评分者的权重,取值范围为0≤W(s)≤1和0≤W(o)≤1。 
图9是本实施例中面向大规模协同知识处理数据模型中的“证据”示意图,如图9所示,“证据”中需要记录自身的URI之外,还记录所对应的答案URI、证据内容、最后修改者URI、最后更新时间、可信度等信息。‘答案URI’用于记录“证据”对应的“答案”。‘证据内容’的格式和位置不限,可以直接记录证据内容,也可以记录证据的URI或URL地址。‘最后修改者URI’中记录负责修改此证据的最后一个参与者。为了方便跟踪和恢复“证据”数据,本专利采用三元组{‘证据URI’,‘修改者URI’,‘修改时间’}来区分同一个证据的不同版本。‘可信度’中记录该版本“证据”的可信度值,具体计算方法如下: 
Ce ( k , i ) = Ce ( k , i - 1 ) + W ( s ) &times; Ce ( k , 0 ) &times; Cp ( k , 0 ) 100 + W ( o ) &times; &Sigma; j = 0 n Ce ( j ) &times; Cp ( j , i ) n &times; 100 - - - ( 5 )
其中Ce(k,i)和Ce(k,i-1)分别表示第k个证据(k≥0)被第i次和第i-1(i≥1)次修改后的可信度值,Ce(k,0)和Ce(k,j)分别代表的是问题发起人和第j个评分者(1≤j≤N,N为评分人数)对此项证据的评分值,取值范围为-100≤Ce(k,0)≤100,-100≤Ce(k,j)≤100,Cp(k,0)和Cp(j,i)分别代表的是问题发起人和第j个评分者在对此项证据进行评分时的可信度,取值范围为0≤Cp(k,0)≤1和0≤Cp(j,i)≤1,W(s)和W(o)分别代表问题发起人和评分者的权 重,取值范围为0≤W(s)≤1和0≤W(o)≤1。 
图10是本实施例中面向大规模协同知识处理数据模型中的“日志”示意图,如图10所示,“日志”主要用于记录“参与者”的大规模协同知识处理行为,以便应急恢复和行为分析。“日志”中需要记录的内容包括:‘日志URI’、‘日志类型’、‘操作对象URI’、‘操作内容’、‘操作者URI’和‘操作开始时间’和‘操作结束时间’。‘日志URI’可以采用相对URI或绝对URI,也可以采用统一资源定位符(URL)来代替URI。‘日志类型’可以分为答案日志、证据日志和背景信息日志三种,分别用于记录“答案”、“证据”和“背景信息”的操作日志。‘操作内容’中记录补充、修改、评分过程的详细记录,可以采用计算机可自动进行的方式表示。‘操作开始时间’和‘操作结束时间’是基于日志的数据恢复的重要依据,可以通过以直接记录操作起止时的***时间的方法实现。 
图11为根据本发明实施例一的协同知识处理方法的流程图,下面根据图11详细说明基于上述面向大规模协同知识处理数据模型的协同知识处理方法的各步骤。 
步骤S110,接收问题信息和与问题信息相关的背景信息。 
基于实施例中的面向大规模协同知识处理数据模型,发起人参考“领域本体”,就某一个“话题”提出“问题”,并提供“背景信息”,“背景信息”优选地包括相关知识、原始数据和限制条件等,以便其他参与者的学习和了解。 
发起人在提出“问题”时可以选择问题类型,以便其他参与者能够很容易搜索到此问题,并对“问题”进行深度挖掘提供基础。本实施例中,优选地将“问题”归为七类,即:‘为什么’、‘什么是’、‘如何’、‘什么时候’、‘什么地方’、‘谁’和‘是否’类问题。 
发起人提出的“问题”可用两种不同形式表示,一种是面向计算机理解的提问表达式,另一种是面向人类理解的自然语言问句。每个“问题”可以设定起止时间和评分方法,以便鼓励其他主体的积极参与。 
如果“问题”太大或无法达成一致“答案”,可以分解成多个“子问题”, “子问题”也可以进一步分解成若干个更小的“子问题”。 
在“问题”或“子问题”的讨论过程中可以演化出“新问题”。“问题”、“子问题”和“新问题”之间的关系和演化过程需要记录到***中,以便舆情分析和问题挖掘。 
步骤S120,接收参与者针对问题信息给出的答案信息和证据信息。 
参与者就发起人提出的“问题”,给出自己的“答案”,参与者也可以是发起人本身。给出的“答案”可以是标准答案,也可以相对不够准确和完善的,但能够对其他参与者具有一定的启示作用。 
参与者在给出自己的“答案”时,还可以提供相应的“证据”。该“证据”可以用来计算“答案”的可信度,也可以作为问题发起人和其他参与者用于核实和改进的依据。 
“答案”及其“证据”的格式和位置不限。格式上可以是文字、图片、多媒体、网页等多种格式,位置上可以存放在本地,也可以是异地存储,本地存储的只是答案本身的URI。 
步骤S130,接收对答案信息、证据信息和/或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息。 
其他参与者(包括发起人本身)可以对已有的“答案”、“证据”和/或“背景信息”进行补充和/或修改,使“答案”、“证据”和/或“背景信息”更加准确和完整。“答案”、“证据”和/或“背景信息”的每次更新操作需要重新计算其对应的版本号以形成不同版本的“答案”、“证据”和/或“背景信息”。 
计算“答案”的版本号的公式如下: 
Va ( k , i ) = Va ( k , i &prime; ) + | Ca ( k , i ) - Ca ( k , i &prime; ) | 100 - - - ( 6 )
其中Va(k,i′)和Va(k,i)分别代表第k个答案在被第i次修改之前和修改之后的版本号,i>0,Va(k,0)=0,表示尚未作过任何修改的答案的版本号为0。|Ca(k,i)-Ca(k,i′)|代表的是第k个答案被第i次修改过程中的可信度变化的绝对值,-100≤Ca(k,i)≤100,-100≤Ca(k,i′)≤100。 计算“证据”的版本号的公式如下: 
Ve ( k , i ) = Ve ( k , i &prime; ) + | Ce ( k , i ) - Ce ( k , i &prime; ) | 100 - - - ( 7 )
其中Ve(k,i′)和Ve(k,i)分别代表第k个证据在被第i次修改之前和修改之后的版本号,i>0,Ve(k,0)=0,表示尚未作过任何修改的证据的版本号为0。|Ce(k,i)-Ce(k,i′)|代表的是第k个证据被第i次修改过程中的可信度变化的绝对值,-100≤Ce(k,i)≤100,-100≤Ce(k,i′)≤100。 
计算“背景信息”的版本号的公式如下: 
Vc ( k , i ) = Vc ( k , i &prime; ) + | Cc ( k , i ) - Cc ( k , i &prime; ) | 100 - - - ( 8 )
其中Vc(k,i′)和Vc(k,i)分别代表第k个背景信息在被第i次修改之前和修改之后的版本号,i>0,Vc(k,0)=0,表示尚未作过任何修改的背景信息的版本号为0。|Cc(k,i)-Cc(k,i′)|代表的是第k个背景信息被第i次修改过程中的可信度变化的绝对值,-100≤Cc(k,i)≤100,-100≤Cc(k,i′)≤100。 
“答案”、“证据”和/或“背景信息”的补充和/或修改可以被记录到“日志”中,以便版本回溯和应对破坏性操作。 
步骤S140,根据不同版本的答案信息、证据信息和背景信息的评分值和评分值的评分者的可信度值计算不同版本的答案信息、证据信息和背景信息的可信度值,根据不同版本的答案信息和评分值以及证据信息的可信度值选出最优答案信息。 
获取不同版本的答案、证据和背景信息的评分值,该评分值是参与者对答案、证据和背景信息的准确度所进行的评分。获取每个对不同版本的答案、证据和背景信息进行评分的参与者在参与知识处理时的已有的可信度值,根据参与者的可信度值以及对“答案”、“证据”和/或“背景信息”的补充、修改和/或评分情况计算出每个“答案”、“证据”和“背景信息”的可信度值,具体的,可以采用公式(3)至(5)给出的方法来计算各个版本的答案”、“证据”和“背景信息”可信度值。另外,还可以根据每个可信度值来得出答案”、“证据”和“背景信息”的可信度变化曲线。 
对于可信度值的变化趋势迅速下降的“答案”、“证据”和/或“背景信 息”,可以进行版本回溯操作。 
根据各版本“答案”和“证据”的可信度值、问题发起人对答案给出的评分值,计算出每个版本答案的推荐程度值,并按照推荐程度进行排序。将推荐程度值最高的答案作为最优答案。 
计算答案的推荐程度值的公式如下: 
D(i,j)=Ca(i,j)×V(a)+Ce(i,j)×V(e)+Cs(i,j)×V(s)(9) 
其中,D(i,j)表示第i个答案的第j个版本的推荐程度值。Ca(i,j)表示第i个答案的第j个版本的可信度值,Ce(i,j)和Cs(i,j)分别表示第i个答案的第j个版本所对应证据的可信度值和问题发起人对第i个答案的第j个版本给出的评分值,-100≤Ca(i,j)≤100,-100≤Ce(i,j)≤100,-100≤Cs(i,j)≤100,V(a)、V(e)和V(s)分别代表答案的可信度、证据的可信度和问题发起人评分值的权重,0≤V(a)≤1,0≤V(e)≤1,0≤V(s)≤1,且V(a)+V(e)+V(s)=1。 
步骤S150,根据不同版本的答案信息的可信度值更新提供答案信息的参与者的可信度值。 
根据参与者提供的答案的可信度、问题发起人的评分值、参与者的贡献值计算出一次问题大规模协同知识处理过程中的得分值,从而得出本次知识处理过程中该参与者的可信度值,将其记入参与者的可信度值总分中以更新该参与者的可信度值,可以根据公式(1)和(2)更新参与者在参与本次知识处理过程后的可信度值。 
在本实施例中产生的数据可以用两种不同的形式表示,即面向计算机知识处理的语义Web形式和面向人类阅读的非语义Web形式。 
实施例二 
图12为根据本发明实施例二的协同知识处理***的结构示意图,下面根据图12详细说明该***的组成。 
该***包括以下模块: 
发起模块,其接收问题信息和与该问题信息相关的背景信息。 
参与模块,其接收参与者针对该问题信息给出的答案信息和证据信息。 
修改补充模块,其接收对该答案信息、证据信息和/或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息。 
最优答案选择模块,其根据该不同版本的答案信息、证据信息和背景信息的评分值和该评分值的评分者的可信度值计算该不同版本的答案信息、证据信息和背景信息的可信度值,根据该不同版本的答案信息、证据信息和背景信息的可信度值选出最优答案信息。 
可信度值更新模块,其根据该不同版本的答案信息的可信度值更新提供该答案信息的参与者的可信度值。 
本***中的各模块也可以用于实现对应于实施例一中的各步骤的优选方案,在此不作详述。 
本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。 
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。 

Claims (10)

1.一种协同知识处理方法,其特征在于,包括以下步骤:
步骤1,接收问题信息和与所述问题信息相关的背景信息;
步骤2,接收参与者针对所述问题信息给出的答案信息和证据信息;
步骤3,接收对所述答案信息、证据信息和/或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息;
步骤4,根据所述不同版本的答案信息、证据信息和背景信息的评分值和所述评分值的评分者的可信度值计算所述不同版本的答案信息、证据信息和背景信息的可信度值,根据所述不同版本的答案信息的可信度值和评分值以及证据信息的可信度值选出最优答案信息;
步骤5,根据所述不同版本的答案信息的可信度值更新提供所述答案信息的参与者的可信度值。
2.根据权利要求1所述的方法,其特征在于,所述背景信息包括相关知识、原始数据和/或限制条件,所述问题包括多个子问题。
3.根据权利要求1所述的方法,其特征在于,根据所述答案信息的可信度值计算出对应的参与者参与本次知识处理过程的得分值,根据所述得分值更新参与者的可信度值。
4.根据权利要求3所述的方法,其特征在于,根据所述得分值得出参与者参与本次知识处理过程的可信度值,更新参与者的可信度值的公式为:
Cp(i,j)=Cp(i,j-1)与Cq(i,j)
其中,Cp(i,j)表示第i个参与者参与第j次知识处理过程之后的累计可信度,Cp(i,j-1)表示该参与者在第j-1次参与知识处理过程之前的可信度,Cq(i,j)表示该参与者在第j次知识处理过程中得到的可信度;
其中Cq(i,j)的计算公式如下:
Cq ( i , j ) = &Sigma; k = 1 n p ( k ) n &times; 100
其中,p(k)表示第k个参与者对第i个参与者参与第j次大规模协同知识处理过程给出的评分数,0≤k≤n,n为评分人数,-100≤p(k)≤100。
5.根据权利要求1所述的方法,其特征在于,计算所述背景信息的可信度值的公式为:
Cc ( k , i ) = Cc ( k , i - 1 ) + W ( s ) &times; Cs ( k , 0 ) &times; Cp ( k , 0 ) 100 + W ( o ) &times; &Sigma; j = 0 n Cs ( j ) &times; Cp ( j , i ) n &times; 100
其中Cc(k,i)和Cc(k,i-1)分别表示第k条背景信息(k≥0)被第i次和第i-1(i≥1)次修改后的可信度,Cs(k,0)和Cs(k,j)分别表示问题发起人和第j个评分者(0≤j≤N,N为评分人数)对此项背景信息的评分值,取值范围为-100≤Cs(k,0)≤100,-100≤Cs(k,j)≤100,Cp(k,0)和Cp(j,i)分别表示问题发起人和第j个评分者在对此项背景信息进行评分时的可信度,取值范围为0≤Cp(k,0)≤1和0≤Cp(j,i)≤1,W(s)和W(o)分别表示问题发起人和评分者的权重,取值范围为0≤W(s)≤1和0≤W(o)≤1;
计算所述背景信息的版本号的公式如下:
Vc ( k , i ) = Vc ( k , i &prime; ) + | Cc ( k , i ) - Cc ( k , i &prime; ) | 100
其中Vc(k,i′)和Vc(k,i)分别表示第k个背景信息在被第i次修改之前和修改之后的版本号,i>0,Vc(k,0)=0,表示尚未作过任何修改的背景信息的版本号为0,|Cc(k,i)-Cc(k,i′)|表示第k个背景信息被第i次修改过程中的可信度变化的绝对值,-100≤Cc(k,i)≤100,-100≤Cc(k,i′)≤100。
6.根据权利要求1所述的方法,其特征在于,计算所述答案信息的可信度值得公式为:
Ca ( k , i ) = Ca ( k , i - 1 ) + W ( s ) &times; Ca ( k , 0 ) &times; Cp ( k , 0 ) 100 + W ( o ) &times; &Sigma; j = 0 n Ca ( j ) &times; Cp ( j , i ) n &times; 100
其中Ca(k,i)和Ca(k,i-1)分别表示第k个答案信息(k≥0)被第i次和第i-1(i≥1)次修改后的可信度值,Ca(k,0)和Ca(k,j)分别表示问题发起人和第j个评分者(0≤j≤N,N为评分人数)对此项答案信息的评分值,取值范围为-100≤Ca(k,0)≤100,-100≤Ca(k,j)≤100,Cp(k,0)和Cp(j,i)分别表示问题发起人和第j个评分者在对此项答案信息进行评分时的可信度,取值范围为0≤Cp(k,0)≤1和0≤Cp(j,i)≤1,W(s)和W(o)分别表示问题发起人和评分者的权重,取值范围为0≤W(s)≤1和0≤W(o)≤1;
计算所述答案信息的版本号的公式如下:
Va ( k , i ) = Va ( k , i &prime; ) + | Ca ( k , i ) - Ca ( k , i &prime; ) | 100
其中Va(k,i′)和Va(k,i)分别表示第k个答案在被第i次修改之前和修改之后的版本号,i>0,Va(k,0)=0,表示尚未作过任何修改的答案的版本号为0,|Ca(k,i)-Ca(k,i′)|表示第k个答案被第i次修改过程中的可信度变化的绝对值,-100≤Ca(k,i)≤100,-100≤Ca(k,i′)≤100。
7.根据权利要求1所述的方法,其特征在于,计算所述证据信息的可信度值得公式为:
Ce ( k , i ) = Ce ( k , i - 1 ) + W ( s ) &times; Ce ( k , 0 ) &times; Cp ( k , 0 ) 100 + W ( o ) &times; &Sigma; j = 0 n Ce ( j ) &times; Cp ( j , i ) n &times; 100
其中Ce(k,i)和Ce(k,i-1)分别表示第k个证据信息(k≥0)被第i次和第i-1(i≥1)次修改后的可信度值,Ce(k,0)和Ce(k,j)分别表示问题发起人和第j个评分者(0≤j≤N,N为评分人数)对此项证据信息的评分值,取值范围为-100≤Ce(k,0)≤100,-100≤Ce(k,j)≤100,Cp(k,0)和Cp(j,i)分别表示问题发起人和第j个评分者在对此项证据信息进行评分时的可信度,取值范围为0≤Cp(k,0)≤1和0≤Cp(j,i)≤1,W(s)和W(o)分别表示问题发起人和评分者的权重,取值范围为0≤W(s)≤1和0≤W(o)≤1;
计算证据信息的版本号的公式如下:
Ve ( k , i ) = Ve ( k , i &prime; ) + | Ce ( k , i ) - Ce ( k , i &prime; ) | 100
其中Ve(k,i′)和Ve(k,i)分别表示第k个证据在被第i次修改之前和修改之后的版本号,i>0,Ve(k,0)=0,表示尚未作过任何修改的证据的版本号为0,|Ce(k,i)-Ce(k,i′)|表示的是第k个证据被第i次修改过程中的可信度变化的绝对值,-100≤Ce(k,i)≤100,-100≤Ce(k,i′)≤100。
8.根据权利要求1所述的方法,其特征在于,所述步骤4中,根据所述不同版本的答案信息的可信度值和评分值以及证据信息的可信度值计算出每个版本的答案信息的推荐程度值,并按照推荐程度值进行排序,将推荐程度值最高的答案信息作为最优答案信息;
计算答案信息的推荐程度值的公式如下:
D(i,j)=Ca(i,j)×V(a)+Ce(i,j)×V(e)+Cs(i,j)×V(s)
其中,D(i,j)表示第i个答案信息的第j个版本的推荐程度值,Ca(i,j)表示第i个答案信息的第j个版本的可信度值,Ce(i,j)和Cs(i,j)分别表示第i个答案信息的第j个版本所对应证据的可信度值和第i个答案信息的第j个版本的评分值,-100≤Ca(i,j)≤100,-100≤Ce(i,j)≤100,-100≤Cs(i,j)≤100,V(a)、V(e)和V(s)分别表示答案信息的可信度值、证据信息的可信度值和答案信息评分值的权重,0≤V(a)≤1,0≤V(e)≤1,0≤V(s)≤1,且V(a)+V(e)+V(s)=1。
9.根据权利要求1所述的方法,其特征在于,所述问题、背景信息、答案信息和/或证据信息的表示形式为面向计算机知识处理的语义Web形式或面向人类阅读的非语义Web形式。
10.一种协同知识处理***,其特征在于,包括以下模块:
发起模块,其接收问题信息和与所述问题信息相关的背景信息;
参与模块,其接收参与者针对所述问题信息给出的答案信息和证据信息;
修改补充模块,其接收对所述答案信息、证据信息和/或背景信息进行的补充和/或修改,以形成不同版本的答案信息、证据信息和/或背景信息;
最优答案信息选择模块,其根据所述不同版本的答案信息、证据信息和背景信息的评分值和所述评分值的评分者的可信度值计算所述不同版本的答案信息、证据信息和背景信息的可信度值,根据所述不同版本的答案信息的可信度值和评分值以及证据信息的可信度值选出最优答案信息;
可信度值更新模块,其根据所述不同版本的答案信息的可信度值更新提供所述答案信息的参与者的可信度值。
CN2011102353663A 2011-08-16 2011-08-16 一种大规模协同知识处理方法和*** Pending CN102411604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102353663A CN102411604A (zh) 2011-08-16 2011-08-16 一种大规模协同知识处理方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102353663A CN102411604A (zh) 2011-08-16 2011-08-16 一种大规模协同知识处理方法和***

Publications (1)

Publication Number Publication Date
CN102411604A true CN102411604A (zh) 2012-04-11

Family

ID=45913678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102353663A Pending CN102411604A (zh) 2011-08-16 2011-08-16 一种大规模协同知识处理方法和***

Country Status (1)

Country Link
CN (1) CN102411604A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820681A (zh) * 2015-04-17 2015-08-05 清华大学 一种用于线上问答服务的应答方法及***
CN106682523A (zh) * 2016-11-17 2017-05-17 安徽华博胜讯信息科技股份有限公司 一种基于DSpace的数字资源管理方法
CN110688478A (zh) * 2019-09-29 2020-01-14 腾讯科技(深圳)有限公司 一种答案排序方法、装置及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820681A (zh) * 2015-04-17 2015-08-05 清华大学 一种用于线上问答服务的应答方法及***
CN106682523A (zh) * 2016-11-17 2017-05-17 安徽华博胜讯信息科技股份有限公司 一种基于DSpace的数字资源管理方法
CN110688478A (zh) * 2019-09-29 2020-01-14 腾讯科技(深圳)有限公司 一种答案排序方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Akinci et al. Collective intuition: Implications for improved decision making and organizational learning
Ravenscroft et al. Designing social media for informal learning and knowledge maturing in the digital workplace
El-Diraby Domain ontology for construction knowledge
Carriero et al. Pattern-based design applied to cultural heritage knowledge graphs
Cantú et al. A multiagent knowledge and information network approach for managing research assets
HRP20231346T1 (hr) Jezik prirodnog rješenja
Champin et al. SIOC in action representing the dynamics of online communities
Hao et al. Semantic patterns for user‐interactive question answering
Lee et al. A systematic idea generation approach for developing a new technology: Application of a socio-technical transition system
CN102411604A (zh) 一种大规模协同知识处理方法和***
Newberry et al. Constructing causal loop diagrams from large interview data sets
Loia et al. An enhanced approach to improve enterprise competency management
Scharl Environmental online communication
Gaviria-Marin et al. Ranking web as indicator of knowledge diffusion: an application for SMEs
Xu [Retracted] Digital Construction of Vocal Music Teaching Resource Base Using Data Mining Technology
John et al. Towards a software centric approach for ontology development: Novel methodology and its application
Passant et al. The SIOC project: semantically-interlinked online communities, from humans to machines
Palmer et al. Generating rules from data mining for collaboration moderator services
Tempich Ontology engineering and routing in distributed knowledge management applications.
Seddon et al. Information and ontologies: Challenges in scaling knowledge for development
Borri et al. Learning and sharing technology in informal contexts: A multiagent-based supporting approach
Danzon-Chambaud Automated news in practice: changing the journalistic doxa during COVID-19, at the BBC and across media organisations
Hassan et al. Feedback Recommendation System Based on Structured Feedback Acquisition
Elembilassery et al. Navigating the initial stages of the pandemic using knowledge management: An integrated framework
Dorschel Middle-class responses to climate change: An analysis of the ecological habitus of tech workers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120411