CN104484374A - 一种创建网络百科词条的方法及装置 - Google Patents

一种创建网络百科词条的方法及装置 Download PDF

Info

Publication number
CN104484374A
CN104484374A CN201410742411.8A CN201410742411A CN104484374A CN 104484374 A CN104484374 A CN 104484374A CN 201410742411 A CN201410742411 A CN 201410742411A CN 104484374 A CN104484374 A CN 104484374A
Authority
CN
China
Prior art keywords
retrieval
result
entry
visual angle
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410742411.8A
Other languages
English (en)
Other versions
CN104484374B (zh
Inventor
吴先超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410742411.8A priority Critical patent/CN104484374B/zh
Publication of CN104484374A publication Critical patent/CN104484374A/zh
Application granted granted Critical
Publication of CN104484374B publication Critical patent/CN104484374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种创建网络百科词条的方法及装置,所述方法包括:接收待创建词条,分析待创建词条的领域分类,并查询与领域分类相对应的视角分区;使用待创建词条和视角分区组建检索语句,根据检索语句进行检索;依据预设的整合规则,对检索结果进行整合,并显示整合后的检索结果。通过本发明公开的一种创建网络百科词条的方法及装置,使得自动创建词条能够实现,提高了创建词条准确率。

Description

一种创建网络百科词条的方法及装置
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种创建网络百科词条的方法及装置。
背景技术
百科全书是概要记述人类一切知识门类或某一知识门类的工具书,其几乎包容了各种工具书的成分,囊括了各方面的知识。随着网络技术的发展,网络百科逐渐替代纸质百科全书。
由于网络百科具有开放性和自由性,强调用户的参与和奉献精神。因此,网络百科允许任何用户创建词条,并编辑与词条相对应的内容,充分调动用户的力量,汇聚上亿用户的智慧。同时,网络百科实现了与搜索引擎(例如,百度和谷歌等)、问答的结合,从不同的层次上满足用户对信息的需求。目前中文版的网络百科主要有:***、百度百科、搜狗百科和互动百科。
在网络百科中搜索词条时,若搜索引擎返回的页面为未收录该词条,则如图1所示。则需要将该词条作为待创建词条,人工创建与待创建词条对应的网络百科。目前,需要创建面向人物、机构、品牌和产品等方向的待创建词条的时候,创建人首先利用已有搜索引擎,从不同维度检索待创建词条的相关网页信息。然后人工对相关网页信息加以过滤、精简和整合等一系列编辑。最后创建出与待创建词条相对应的内容。这一人工创建全新词条的工作繁重而琐碎。并且在人工对相关网页信息加以过滤、精简和整合等一系列编辑的过程中,由于创建者的自身因素,有可能出现误操作,降低了网络百科的正确率。
发明内容
本发明实施例提供一种创建网络百科词条的方法及装置,以提高创建网络百科词条的效率和准确率。
一方面,本发明实施例提供了一种创建网络百科词条的方法,包括:
接收待创建词条,分析所述待创建词条的领域分类,并查询与所述领域分类相对应的视角分区;
使用所述待创建词条和所述视角分区组建检索语句,根据所述检索语句进行检索;
依据预设的整合规则,对检索结果进行整合,并显示整合后的检索结果。
另一方面,本发明实施例还提供了一种创建网络百科词条的装置,包括:
视角分区查询模块,用于接收待创建词条,分析所述待创建词条的领域分类,并查询与所述领域分类相对应的视角分区;
检索语句构建模块,用于使用所述待创建词条和所述视角分区组建检索语句,根据所述检索语句进行检索;
检索结果整合模块,用于依据预设的整合规则,对检索结果进行整合,并显示整合后的检索结果。
本发明实施例通过一种创建网络百科词条的方法及装置,在网络百科检索的词条为未收录的词条时,将该词条作为待创建词条,分析待创建词条的领域分类,并查询与领域分类相对应的视角分区;对待创建词条和视角分区组建检索语句进行检索;依据预设的整合规则,对检索结果进行整合,并显示整合后的检索结果,使得能够实现自动创建词条,提高了创建词条的准确率。
附图说明
图1为现有技术中未收录词条对应的网络百科页面;
图2为本发明实施例提供的一种创建网络百科词条的方法的流程示意图;
图3a为本发明实施例提供的训练词条与领域分类模型和利用词条与领域分类模型分析待创建词条的领域分类的示意图;
图3b为本发明实施例提供的目前网络百科中已有的词条对应的领域分类;
图3c为本发明实施例提供的目前网络百科中已有的词条对应的分类特征;
图4为本发明实施例提供的一种创建网络百科词条的方法的流程示意图;
图5为本发明实施例提供的一种创建网络百科词条的方法的流程示意图;
图6为本发明实施例提供语义角色标注过程示意图;
图7为本发明实施例提供的一种创建网络百科词条的方法的流程示意图;
图8为本发明实施例提供的依存关系树示意图;
图9为本发明实施例提供的一种创建网络百科词条的方法的示意图;
图10为本发明实施例提供的一种创建网络百科词条的装置的结构示意图;
图11为本发明实施例提供的一种创建网络百科词条的装置的结构的示意图;
图12为本发明实施例提供的一种创建网络百科词条的页面。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图2为本发明实施例一提供的一种创建网络百科词条的方法的流程示意图。
该方法可适用于网络百科未收录用户输入的新词条,用户创建新词条的情况下,该方法可以由创建网络百科词条的装置来执行,该装置可以配置在能够处理网络百科信息的服务器中。该方法具体包括以下操作S201-S203:
操作S201,接收待创建词条,分析待创建词条的领域分类,并查询与领域分类相对应的视角分区。
在操作S201中,在网络百科中检索词条,网络百科搜索引擎未返回与词条相应的网页信息,并且提示用户该词条并未被网络百科收录,则该词条可以作为待创建词条,需要创建与待创建词条相对应的网络百科。为实现创建与待创建词条相对应的网络百科,需要分析待创建词条的领域分类,以作为区分待创建词条所属领域的依据,待创建词条可以对应一个领域分类也可以对应多个领域分类。例如,“微软亚洲研究所”是机构名称,则对应的领域分类为机构;“奔驰”可以对应人名“卡尔·奔驰”这个人物,也可以对应“梅赛德斯奔驰”这个汽车品牌,则“奔驰”可以对应人物和汽车品牌两个领域分类。在分析待创建词条的领域分类后,可以查询与领域分类相对应的至少一个视角分区。视角分区可以代表领域分类的各方面属性,以对领域分类进行详细的描述。例如“张亚勤”为人物领域分类,其对应的视角分区可以包括早年经历、个人履历、主要荣誉和微软亚太。
操作S202,使用待创建词条和视角分区组建检索语句,根据检索语句进行检索,获得检索结果。
在操作S202中,可以将待创建词条和各个视角分区分别组建检索语句,例如检索语句分别为“张亚勤早年经历”和“张亚勤个人履历”等,以实现从各个视角分区对待创建词条进行全面检索。也可以将待创建词条和多个视角分区组建检索语句,例如“张亚勤个人履历主要荣誉”,让搜索引擎返回与待创建词条精准度更高的网页内容,有利于搜索到高质量的网页作为原始语料,以构建与待创建词条相对应的网络百科。检索结果可以包括搜索引擎返回的关于各个查询语句的全部网页内容。
操作S203,依据预设的整合规则,对检索结果进行整合,并显示整合后的检索结果。
在S203中,检索结果中的网页内容的数量较多,而且这些网页内容中存在相对同一视角分区重复描述的内容,可读性不强。需要依据预设的整合规则,对检索结果进行整合,将整合后的检索结果作为与待创建词条相对应的网络百科展示。为进一步提高创建网络百科的准确性,在向用户展示该整合后的检索结果后,可以提示用户确认该整合后的检索结果是否正确。若正确,则可以将该整合后的检索结果作为待创建词条对应的网络百科;若不正确,则用户可以修改整合后的检索结果,将修改后的检索结果作为待创建词条对应的网络百科。
通过本发明实施例提供的一种创建网络百科词条的方法,可以在网络百科检索词条,该词条为未收录的词条的情况下,将该词条作为待创建词条,自动创建待创建词条的网络百科,提高了创建网络百科词条的准确率。
实施例二
本实施例基于上述实施例,进一步将上述操作S201“接收待创建词条,分析待创建词条的领域分类,并查询与领域分类相对应的视角分区”进一步优化为:依据词条与领域分类模型分析待创建词条的领域分类,获得至少一个领域分类。
训练词条与领域分类模型和利用词条与领域分类模型分析待创建词条的领域分类的示意图如图3a所示,训练词条与领域分类模型的阶段具体包括:
首先,获取训练数据。可以将已人工标注领域分类的词条作为训练数据。例如:“苹果-水果”,也可以将目前网络百科中已有的词条和与之相对应的领域分类作为训练数据,例如“微软亚洲研究院-机构”。
其次,使用分类器构建训练数据的分类特征。其中,分类器可以是SVM(Support Vector Machine,支持向量机)或贝叶斯分类器。
分类特征可以是词条本身特征,例如,词条为“水果”,则“颜色”和“形状”这些“水果”自身的特征可以作为分类特征。
分类特征也可以是词条自动调用搜索引擎获得的top-N(流量排行榜)的网页内容。例如,搜索词条“张亚勤”获得的网页上包括“他”、“出生于1966年”和“华盛顿大学博士”等信息,这些信息都支持“张亚勤”这个词条而被划分到“人物”这个领域的分类特征。
最后,依据分类特征,创建词条与领域分类模型。
例如,分别依据词条“苹果”的自身分类特征“形状”和“颜色”构建特征函数,f1(x)为“颜色”的特征函数,代表水果图片上的颜色信息,例如红色可以取值为1,黄色可以取值为2等;f2(x)为“形状”的特征函数,代表水果图片x的形状,例如“圆形”可以取值为1,“细长型”可以取值为2等。其创建的词条与领域分类模型为线性模型y(x)=w1*f1(x)+w2*f2(x),其中x为水果图片,y(x)为领域分类:水果,w1和w2是两个待定参数。
以此类推,可以扩展特征的类型,根据已有百科词条上面的页面内容以及该词条已经所述的领域标签,来构造出来词条与领域标签的分类模型。
例如:一个已有的百科词条“张亚勤”在百科中,所述的领域标签分类为“人物”,如图3b所示。
这样的话,可以根据这个百科网页词条构造出来一个训练数据如下:
y:人物;
x:张亚勤;
f1(x)到fn(x)可以图3c中的一些短语,例如f1(x)是“张亚勤这个词条的百科网页中,是否包括“早年经历”这个内容”,这是因为对于一个新的待创建条目,如果我们已经从已有网页中搜索到了和“早年经历”相关的文字内容的话,则该待创建条目属于“人物”领域标签的可能性会大增,这是符合人们的常识预期的。
如图3所示,利用词条与领域分类模型分析待创建词条的领域分类的操作可以包括:
首先,接收待创建词条。
其次,构建待创建词条的分类特征,并调用词条与领域分类模型。
其中,构建待创建词条的分类特征可以是词条本身特征,例如,词条为“水果”,则“颜色”和“形状”这些“水果”自身的特征可以作为分类特征。
构建待创建词条的分类特征也可以是词条自动调用搜索引擎获得的top-N的网页内容。例如,搜索词条“张亚勤”获得的网页上包括“他”、“出生于1966年”和“华盛顿大学博士”等信息,这些信息都支持“张亚勤”这个词条被划分到“人物”这个领域的分类特征。依据上述各个分类特征,并调用词条与领域分类模型,得到待创建词条的各个领域分类,即将待创建词条的各个分类特征输入词条与领域分类模型,得到词条与领域分类模型输出的待创建词条的至少一个领域分类。最后,输出领域分类的集合。该集合中包括了至少一个领域分类,例如,“张亚勤人物”中包含了一个领域分类;而“奔驰人物品牌”包括了两个领域分类。
通过本发明实施例提供的技术方案,可以依据词条与领域分类模型分析待创建词条的领域分类,提高了分析待创建词条的领域分类的准确性。
实施例三
本实施例基于上述实施例,进一步将上述“接收待创建词条,分析待创建词条的领域分类,并查询与领域分类相对应的视角分区”中的操作进一步优化为:依据领域分类对应的网络百科词条模板,查询与领域分类相对应的视角分区。
其中,网络百科词条模板中包含领域分类和与领域分类相对应的视角分区。示例性的,领域分类可以包括人物、机构、药品和品牌中的至少一个。人物相对应的视角分区可以包括时间、空间和生平事件组成的时空图谱;机构相对应的视角分区可以包括时间、空间和相关人物;药品相对应的视角分区可以包括时间、发明人、发明机构、效果和副作用;品牌相对应的视角分区可以包括时间、创始人、规模和产品。
例如,“张亚勤”这个人物词条下的视角分区包括:早年经历、个人履历、主要贡献、主要荣誉和微软亚太;而“李开复”这个人物词条下的视角分区包括:人物经历,成就及荣誉,个人作品和社会评价。
依据上述对于百度百科人物相关词条的视角分区的汇总,可以总体概括出和人物相关的视角分区可以有:个人履历(等同于人物经历),成就及荣誉(主要贡献、主要荣誉)和社会评价等若干方面,按照类似的方法可以建立起“人物”相关的百科词条的模板。从而使用该模板来指导待创建词条的自动建立过程。
通过本发明实施例提供的技术方案,可以依据领域分类对应的网络百科词条模板查询与领域分类相对应的视角分区,提高了确定视角分区的准确性。
实施例四
本发明实施例提供的技术方案中,基于上述实施例进一步优化了“接收待创建词条,分析所述待创建词条的领域分类,并查询与所述领域分类相对应的视角分区”的过程,如图4所示,具体包括操作S401-405;
操作S401,接收待创建词条,分析所述待创建词条的领域分类,并查询与所述领域分类相对应的视角分区。
操作S402,使用待创建词条和视角分区组建检索语句,根据检索语句进行检索,获得检索结果。
操作S403,对于查询到的各视角分区,统计检索结果中对应该视角分区的检索结果的出现频次。
例如,查询“张亚勤人物”获得的视角分区包括:早年经历51频次、个人履历20频次、少年时期49频次、主要贡献10频次。
操作S404,将查询到的语义相似的多个视角分区合并成一个视角分区,并叠加该多个视角分区对应的检索结果的出现频次,作为合并后的视角分区对应的检索结果的出现频次。
将语义相似的多个视角分区例如早年经历和少年时期,合并成一个视角分区,例如早年经历,并叠加其频次(早年经历51频次、少年时期49频次)作为合后的视角分区的频次,例如早年经历100频次。
操作S405,按照各视角分区对应的检索结果的出现频次由高到低的顺序,显示各视角分区相对应的检索结果。
通过本发明实施例提供的技术方案,可以将语义相似的多个视角分区合并成一个视角分区,降低了后续检索待创建词条和所述视角分区组建检索语句的任务量,降低了创建网络百科的数据处理量。
实施例五
在上述实施例的基础上,本发明实施例提供了一种创建网络百科词条的方法,适用于创建新词条的网络百科的情况下,如图5所示,具体执行操作S501-S505:
操作S501,接收待创建词条,分析待创建词条的领域分类,并查询与领域分类相对应的视角分区。
操作S502,使用待创建词条和视角分区组建检索语句,根据检索语句进行检索,获得检索结果。
操作S503,采用语义角色标注器,对检索结果中的各个语句进行语义角色标注(SRL,Semantic role labelling),获得各个语句的主干结构。
在操作S503中,在自然语言处理中,语义角色标注器可以采用O(n)复杂度的分析算法,其中n是输入语句中词的个数。各个语句的主干结构可以包括:谓词、谓词的语义角色分类、每个谓词对应的论元(例如,主语,宾语,时间状语,地点状语等)和谓词和论元之间的语义关系。
为清楚起见,语义角色标注过程以对语句“我爱百度”进行语义角色标注为例进行说明,如图6所示:
首先,对语句“我爱百度”进行PRG(Predicate recognition,谓词识别),识别出的谓词为“爱”。
其次,分析谓词“爱”的语义分类。例如,“爱”的语义分类若是CPB2(ChinesePropbank 2.0,中文宾州树库2.0版)中frame set(框架集)定义的第一种语义分类,则给“爱”的语义分类赋值为“爱.01”。
最后,查找与谓词“爱”相对应的论元。论元可以是主语、宾语、时间状语,地点状语等,例如“我爱百度”中的“爱”的主语A0是“我”,宾语A1是“百度”,则与谓词“爱”相对应的论元为“我”和“百度”。
需要进行说明的是,语义角色标注器对语句主干结构的标注与语序(wordorder)无关。例如:语句一,“警方正在详细调查事故原因”,对其进行语义角色标注:“警方”/主语-施事正在详细“调查”/动词-谓词“事故原因”/宾语-受事;语句二,“警方正在对事故原因进行详细调查”,其中动词后置,并且名词化了,但语句主干不变;语句三,“警方对事故原因的调查已经结束”。上述三个语句对应同一种语义主干:警方调查事故原因。从而可以避免语句的语序影响对语义角色标注,提高了语义角色标注的准确性。
需要进行说明的是,语句的主干结构是由“主谓宾定状补”这样的语法结构嵌套/组合而成。语句中的主语(或者宾语等)有可能被隐藏。为克服这一问题,语义角色标注器还可以对语句的语义角色进行自动补全。例如:在“我吃饭了”和“我吃了”这两个语句中的“吃”这个谓词,都是需要主语和宾语的,只不过第二个语句中的宾语被省略了。这两个语句中抽取出来的主干结构可以分别是:我/施事–吃/谓词–饭/受事;我/施事–吃/谓词–<什么>/受事。例如:“你吃晚饭了吗”和“我吃了”这两个语句中,可以抽取到的主干结构是“我/施事–吃/谓词–晚饭/受事”。从而,通过语义角色标注器抽取出来的主干结构,为非单个语句的信息抽取提供了很好的线索。
操作S504,依据预设的整合规则,对检索结果进行整合,并显示整合后的检索结果。
通过本发明实施例提供的技术方案,可以采用语义角色标注器,对检索结果中的各个语句进行语义角色标注获得各个语句的主干结构,提高了创建网络百科的准确性。
语料库中存在的词语为已知词,但语句中的部分词语在语料库中并不存在,例如新兴的网络词语,这些词语为未知词。为了提高语义角色标注器标注语句主干结构的精度,还需要对未知词进行识别。可以使用词聚类词典,将未知词映射到相似的已知词上,并达到正确解析出未知词相关的语义角色关系。
例如:语句1“我目前还没有学习过这个课程”;语句2“我目前还没有研修过这个课程”。假设,已知词为“学习”的主语为“我”,宾语为“课程”;未知词为“研修”,也不知道“研修”的语义角色。此时,就需要根据词聚类方法,即根据上下文的相似度,来估计当前的两个词“学习”和“研修”的语义相似度。在基于大规模数据训练的时候,如果这两个词左右的若干词相似度位于一定范围内,则可以提高已知词和未知词的语义相似度。由于“学习”和“研修”左右的词完全相同,则可以判断“学习”和“研修”语义相似度很高,从而可以把已知的“学习”的语义框架移植到未知的“研修”这个词上面,确定“学习”为“研修”的已知词。
由于支持向量机和贝叶斯分类器等分类器对频次较高的已知词进行语义标注准确度更高,也可以对已知词采用上述映射方法,例如“学习”和“钻研”两个已知词,“学习”出现的频次高,“钻研”出现的频次低,可以将“钻研”映射到“学习”上,从而提高语义角色标注的精度。
实施例六
本发明实施例提供的技术方案中,优选的是语义角色标注器采用pipeline(管程)结构,该管程结构的语义角色标注器以语句的依存分析树为输入,以语句的主干结构为输出。因此,在调用管程结构的语义角色标注器对语句进行语义角色标注之前,需要获取语句的依存分析树。
为解决上述问题,本发明实施例提供一种优选的技术方案,参见图7所示,包括以下操作:
操作S701,接收待创建词条,分析待创建词条的领域分类,并查询与领域分类相对应的视角分区。
操作S702,使用待创建词条和视角分区组建检索语句,根据检索语句进行检索。
操作S703,对检索结果中的各个语句分别进行依存关系分析,并对分析结果进行修正,获得各个语句分别对应的依存分析树。
在操作S703中,可以使用依存关系分析器分析各个语句的依存关系,依存关系可以是现有的语法关系,例如主谓宾定状补。分析结果中可以包括语句的主语、谓语、宾语和状语中的至少一个。依存关系树可以是完成分词和词性标注的语句。例如,语句“克里斯蒂娜昨天用棒球打了斯科特”的依存关系树如图8,其中,“克里斯蒂娜”为主语,“昨天”为时间状语、“斯科特”为宾语。
操作S704,将检索结果中的各个语句的依存分析树分别输入语义角色标注器,语义角色标注器每次接收到语句的依存分析树后,根据当前接收的依存分析树进行语法解析,输出对应语句的主干结构。
操作S705,依据预设的整合规则,对检索结果进行整合,并显示整合后的检索结果,具体是对检索结果中各个语句的主干结构进行整合,并显示整合后的内容。
通过本发明实施例提供的技方案,可以为管程结构的语义角色标注器提供语句的依存关系树作为输入,从而实现利用语义角色标注器输出语句的主干结构。
实施例七
本发明实施例提供的技术方案中,预设的整合规则包括以下至少一项:
预设的整合规则可以是,对检索结果中的实体词语进行歧义消除。以将具有歧义的实体词语统一为同一个实体词语。例如,在同一个文档里面,“尤利乌斯·恺撒”“凯撒”“他”和“凯撒大帝”等都是指代的同一个人“尤利乌斯·恺撒”。可以将其统一为“尤利乌斯·恺撒”。
预设的整合规则可以是,归一化代表同一个实体的缩率语。例如“美国”和“***合众国”都是指美国,可以将其二者归一化为“美国”。
预设的整合规则可以是,对时间进行归一化和自动计算。例如“张亚勤出生于1966年。12岁那年他考上了中国科学技术大学少年班”,这里的“12岁”可以通过“1966+12=1978”即后一句,通过时间计算和代词的指代消解,可以改写为“1978年张亚勤考上了中国科学技术大学少年班”。通过这个步骤,我们可以使得围绕同一个人物的不同语句上的知识信息,按照时间和地点的先后顺序统一整合起来。
预设的整合规则可以是,识别检索结果中NER(Named Entity Recognition,命名实体识别)特征。以识别出语句中有特定意义的实体词语,例如人名、地名和时间等实体词语。人名一般为主语宾语等,地名表示地点状语,时间表示时间状语。
例如:“黎明昨天在上地买了一个书包”。其中,“黎明”为人名,“昨天”为时间,“上地”为地点,则谓词“买”的主干为:“我”为主语,“昨天”为时间状语,“上地”为地点状语,“买”为谓词,“书包”为宾语。可以看到,命名实体识别特征对语义角色标注器的精度有提示作用。
预设的整合规则可以是,识别检索结果中Chunk(块)特征,Chunk特征可以将语句中的短语作为主语或者宾语。例如,“我去中国银行上地支行”。“中国银行上地支行”是一个Chunk特征,代表了唯一的地点,可以将“中国银行上地支行”作为地点宾语。因此识别检索结果中Chunk特征可以使得语义角色标注器达到更好的对于短语的论元成分的分类。
预设的整合规则可以是,使用检词泛化词典将检索结果中未知词描述为已知词点的近义词,来弥补因为语料库中的缺词问题而导致的语义角色标注***精度下降问题。
实施例八
本实施例基于上述各个实施例,以待创建词语为“张亚勤”为例,提供了一种创建网络百科的方法,参见图9,主要包括以下三个阶段:
第一阶段,对检索到的语句进行语义标注。其中,检索语句可以是“张亚勤早年经历”,其检索到的语句包括“张亚勤1966年出生于山西太原”、“张亚勤12岁考上大学”和“张亚勤从中国科技大学毕业”。
对上述语句进行语义标注,“张亚勤1966年出身与山西太原”中的“张亚勤”为主语、“出生”为谓词、“山西太原”为地点状语、“1966年”为时间状语。“张亚勤12岁考上大学”中的“张亚勤”为主语、“考”为谓词、“12岁”为时间状语、“大学”为宾语。“张亚勤从中国科技大学毕业”中的“张亚勤”为主语、“毕业”为谓词、“中国科技大学”为地点状语。
第二阶段,对检索结果进行整合。将其中的“12岁”与“1966年”进行叠加生成“1987”,从而获得“1978年中国科技大学张亚勤大学入学”、“1966年山西太原张亚勤出生”和“1982年中国科技大学张亚勤大学毕业”的检索结果。
第三阶段,依据整合后的检索语句,生成网络百科页面。
实施例九
本发明实施例提供了一种创建网络百科词条的装置,适用于该方法可适用于网络百科未收录用户输入的新词条,用户创建新词条的情况下,如图10所示,主要包括:视角分区查询模块1001、检索语句构建模块1002和检索结果整合模块1003。
视角分区查询模块1001,用于接收待创建词条,分析待创建词条的领域分类,并查询与领域分类相对应的视角分区;检索语句构建模块1002,用于使用待创建词条和视角分区组建检索语句,根据检索语句进行检索;检索结果整合模块1003,用于依据预设的整合规则,对检索结果进行整合,并显示整合后的检索结果。
在视角分区查询模块1001中,在网络百科中检索词条,网络百科搜索引擎未返回与词条相应的网页信息,并且提示用户该词条并未被网络百科收录,则该词条可以作为待创建词条,需要创建与待创建词条相对应的网络百科。为实现创建与待创建词条相对应的网络百科。需要分析待创建词条的领域分类,以作为区分待创建词条所属领域的依据,待创建词条可以对应一个领域分类也可以对应多个领域分类。在分析待创建词条的领域分类后,可以查询与领域分类相对应的至少一个视角分区。视角分区可以代表领域分类的各方面属性,以对领域分类进行详细的描述。
视角分区查询模块1001具体用于,依据词条与领域分类模型分析待创建词条的领域分类,获得至少一个领域分类。其中,领域分类可以包括人物、机构、药品和品牌中的至少一个;人物相对应的视角分区包括时间、空间和生平事件组成的时空图谱;机构相对应的视角分区包括时间、空间和相关人物;药品相对应的视角分区包括时间、发明人、发明机构、效果和副作用;品牌相对应的视角分区包括时间、创始人、规模和产品。
在视角分区查询模块1001还可以将待创建词条和各个视角分区组建检索语句,以实现从各个视角对待创建词条进行全面检索。也可以将待创建词条和多个视角分区组建检索语句,让搜索引擎返回与待创建词条精准度更高的网页内容,有利于搜索到高质量的网页作为原始语料构建与待创建词条相对应的网络百科。检索结果可以包括搜索引擎返回的关于各个查询语句的全部网页内容。
视角分区查询模块1001还可以依据领域分类对应的网络百科词条模板,查询与领域分类相对应的视角分区;其中,网络百科词条模板中包含领域分类和与领域分类相对应的视角分区。
在检索结果整合模块1003中,检索结果中的网页内容的数量较多,而且这些网页内容中存在相对同一视角分区重复描述的内容,可读性不强。需要依据预设的整合规则,对检索结果进行整合,将整合后的检索结果作为与待创建词条相对应的网络百科展示。为进一步提高创建网络百科的准确性,在向用户展示该整合后的检索结果后,可以提示用户确认该整合后的检索结果是否正确。若正确,则可以将该整合后的检索结果作为待创建词条对应的网络百科;若不正确,则用户可以修改整合后的检索结果,将修改后的检索结果作为待创建词条对应的网络百科。
检索结果整合模块1003具体执行以下至少一项预设的整合规则:对检索结果进行命名实体识别NER,以识别出有特定意义的实体词语;对检索结果中的实体词语进行歧义消除,以将具有歧义的实体词语统一为同一个实体词语;归一化代表同一个实体的缩率语。
检索结果整合模块1003,包括:频次统计子模块、频次叠加子模块和结果输出子模块。
频次统计子模块,用于对于查询到的各视角分区,统计检索结果中对应该视角分区的检索结果的出现频次;
频次叠加子模块,用于将查询到的语义相似的多个视角分区合并成一个视角分区,并叠加该多个视角分区对应的检索结果的出现频次,作为合并后的视角分区对应的检索结果的出现频次;
结果输出子模块,用于按照各视角分区对应的检索结果的出现频次由高到低的顺序,显示各视角分区相对应的检索结果。
通过本发明实施例提供的通过一种创建网络百科词条的装置,可以在网络百科检索词条,该词条为未收录的词条的情况下,将该词条作为待创建词条,自动创建待创建词条的网络百科,提高了创建网络百科词条的准确率。
实施例十
在上述各个实施例的基础上,本发明实施例提供的一种创建网络百科词条的装置,如图11所示,包括:视角分区查询模块1101、检索语句构建模块1102依存关系树获得模块1103、语义角色标注模块1104和检索结果整合模块1105。
依存关系树获得模块1103,用于对检索结果中的各个语句分别进行依存关系分析,并对分析结果进行修正,获得各个语句分别对应的依存分析树;
语义角色标注模块1104具体用于,将检索结果中的各个语句的依存分析树分别输入语义角色标注器,语义角色标注器每次接收到语句的依存分析树后,根据当前接收的依存分析树进行语法解析,输出对应语句的主干结构。
通过本发明实施例提供的技术方案,可以采用语义角色标注器,对检索结果中的各个语句进行语义角色标注获得各个语句的主干结构,提高了创建网络百科的准确性。
启动上述各个实施例提供的技术方案的条件可以是在用户在如图12所示的页面中,触发“快速创建按钮”来时实现。
请注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (16)

1.一种创建网络百科词条的方法,其特征在于,包括:
接收待创建词条,分析所述待创建词条的领域分类,并查询与所述领域分类相对应的视角分区;
使用所述待创建词条和所述视角分区组建检索语句,根据所述检索语句进行检索;
依据预设的整合规则,对检索结果进行整合,并显示整合后的检索结果。
2.根据权利要求1所述的方法,其特征在于,分析所述待创建词条的领域分类包括:
依据词条与领域分类模型分析所述待创建词条的领域分类,获得至少一个所述领域分类。
3.根据权利要求1所述的方法,其特征在于,所述查询与所述领域分类相对应的视角分区,包括:
依据所述领域分类对应的网络百科词条模板,查询与所述领域分类相对应的视角分区;其中,所述网络百科词条模板中包含所述领域分类和与所述领域分类相对应的视角分区。
4.根据权利要求3所述的方法,其特征在于,所述领域分类包括人物、机构、药品和品牌中的至少一个;
所述人物相对应的视角分区包括时间、空间和生平事件组成的时空图谱;
所述机构相对应的视角分区包括时间、空间和相关人物;
所述药品相对应的视角分区包括时间、发明人、发明机构、效果和副作用;
所述品牌相对应的视角分区包括时间、创始人、规模和产品。
5.根据权利要求1所述的方法,其特征在于,在使用所述待创建词条和所述视角分区组建检索语句,根据所述检索语句进行检索之后,依据预设的整合规则,整合检索结果之前,还包括:
采用语义角色标注器,对检索结果中的各个语句进行语义角色标注,获得所述各个语句的主干结构。
6.根据权利要求5所述的方法,其特征在于,在采用语义角色标注器,对检索结果中的各个语句进行语义角色标注之前,还包括:
对检索结果中的各个语句分别进行依存关系分析,并对分析结果进行修正,获得所述各个语句分别对应的依存分析树;
则所述采用语义角色标注器,对检索结果中的各个语句进行语义角色标注,获得所述各个语句的主干结构,包括:
将检索结果中的各个语句的依存分析树分别输入所述语义角色标注器,所述语义角色标注器每次接收到语句的依存分析树后,根据当前接收的依存分析树进行语法解析,输出对应语句的主干结构。
7.根据权利要求1-6中任一所述的方法,其特征在于,所述预设的整合规则包括以下至少一项:
对所述检索结果进行命名实体识别NER,以识别出有特定意义的实体词语;
对所述检索结果中的实体词语进行歧义消除,以将具有歧义的实体词语统一为同一个实体词语;
归一化代表同一个实体的缩率语。
8.根据权利要求1-6中任一所述的方法,其特征在于,依据预设的整合规则,对检索结果进行整合之后,在显示整合后的检索结果之前,还包括:
对于查询到的各视角分区,统计所述检索结果中对应该视角分区的检索结果的出现频次;
将查询到的语义相似的多个视角分区合并成一个视角分区,并叠加该多个视角分区对应的检索结果的出现频次,作为合并后的视角分区对应的检索结果的出现频次;
所述显示整合后的检索结果包括:
按照各视角分区对应的检索结果的出现频次由高到低的顺序,显示各视角分区相对应的检索结果。
9.一种创建网络百科词条的装置,其特征在于,包括:
视角分区查询模块,用于接收待创建词条,分析所述待创建词条的领域分类,并查询与所述领域分类相对应的视角分区;
检索语句构建模块,用于使用所述待创建词条和所述视角分区组建检索语句,根据所述检索语句进行检索;
检索结果整合模块,用于依据预设的整合规则,对检索结果进行整合,并显示整合后的检索结果。
10.根据权利要求9所述的装置,其特征在于,所述视角分区查询模块具体用于,依据词条与领域分类模型分析所述待创建词条的领域分类,获得至少一个所述领域分类。
11.根据权利要求9所述的装置,其特征在于,所述视角分区查询模块具体用于,依据所述领域分类对应的网络百科词条模板,查询与所述领域分类相对应的视角分区;其中,所述网络百科词条模板中包含所述领域分类和与所述领域分类相对应的视角分区。
12.根据权利要求11所述的装置,其特征在于,所述领域分类包括人物、机构、药品和品牌中的至少一个;
所述人物相对应的视角分区包括时间、空间和生平事件组成的时空图谱;
所述机构相对应的视角分区包括时间、空间和相关人物;
所述药品相对应的视角分区包括时间、发明人、发明机构、效果和副作用;
所述品牌相对应的视角分区包括时间、创始人、规模和产品。
13.根据权利要求9所述的装置,其特征在于,还包括:
语义角色标注模块,用于采用语义角色标注器,对检索结果中的各个语句进行语义角色标注,获得所述各个语句的主干结构。
14.根据权利要求13所述的装置,其特征在于,还包括:
依存关系树获得模块,用于对检索结果中的各个语句分别进行依存关系分析,并对分析结果进行修正,获得所述各个语句分别对应的依存分析树;
则,所述语义角色标注模块具体用于,将检索结果中的各个语句的依存分析树分别输入所述语义角色标注器,所述语义角色标注器每次接收到语句的依存分析树后,根据当前接收的依存分析树进行语法解析,输出对应语句的主干结构。
15.根据权利要求9-14中任一所述的装置,其特征在于,所述检索结果整合模块具体执行以下至少一项所述预设的整合规则:
对所述检索结果进行命名实体识别NER,以识别出有特定意义的实体词语;
对所述检索结果中的实体词语进行歧义消除,以将具有歧义的实体词语统一为同一个实体词语;
归一化代表同一个实体的缩率语。
16.根据权利要求9-14中任一所述的装置,其特征在于,所述检索结果整合模块,包括:
频次统计子模块,用于对于查询到的各视角分区,统计所述检索结果中对应该视角分区的检索结果的出现频次;
频次叠加子模块,用于将查询到的语义相似的多个视角分区合并成一个视角分区,并叠加该多个视角分区对应的检索结果的出现频次,作为合并后的视角分区对应的检索结果的出现频次;
结果输出子模块,用于按照各视角分区对应的检索结果的出现频次由高到低的顺序,显示各视角分区相对应的检索结果。
CN201410742411.8A 2014-12-08 2014-12-08 一种创建网络百科词条的方法及装置 Active CN104484374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410742411.8A CN104484374B (zh) 2014-12-08 2014-12-08 一种创建网络百科词条的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410742411.8A CN104484374B (zh) 2014-12-08 2014-12-08 一种创建网络百科词条的方法及装置

Publications (2)

Publication Number Publication Date
CN104484374A true CN104484374A (zh) 2015-04-01
CN104484374B CN104484374B (zh) 2018-11-16

Family

ID=52758915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410742411.8A Active CN104484374B (zh) 2014-12-08 2014-12-08 一种创建网络百科词条的方法及装置

Country Status (1)

Country Link
CN (1) CN104484374B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866614A (zh) * 2015-06-05 2015-08-26 深圳市爱学堂教育科技有限公司 创建词条的方法及创建词条的装置
CN105243111A (zh) * 2015-09-25 2016-01-13 常熟商数信息技术有限公司 基于层次关系组织的多语种词库管理方法
CN107148624A (zh) * 2015-06-22 2017-09-08 电子部品研究院 预处理文本的方法以及用于执行该方法的预处理***
CN108572954A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种近似词条结构推荐方法和***
CN108572953A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种词条结构的合并方法
CN108959228A (zh) * 2018-07-13 2018-12-07 众安信息技术服务有限公司 基于区块链创建、检索、编辑数据的方法及可读存储介质
CN108959255A (zh) * 2018-06-28 2018-12-07 北京百度网讯科技有限公司 实体标注数据集构建方法、装置及设备
CN110019656A (zh) * 2017-07-26 2019-07-16 上海颐为网络科技有限公司 一种新建词条相关内容智能推送方法和***
CN111681769A (zh) * 2020-08-17 2020-09-18 耀方信息技术(上海)有限公司 药品分词搜索方法及***
CN112464115A (zh) * 2020-11-24 2021-03-09 北京字节跳动网络技术有限公司 一种信息展示的方法、装置以及计算机存储介质
CN113157996A (zh) * 2020-01-23 2021-07-23 久瓴(上海)智能科技有限公司 文档信息处理方法、装置、计算机设备及可读存储介质
CN113282745A (zh) * 2020-02-20 2021-08-20 清华大学 事件百科文档自动生成方法和装置
CN116991969A (zh) * 2023-05-23 2023-11-03 暨南大学 可配置语法关系的检索方法、***、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179472A (zh) * 2007-05-31 2008-05-14 腾讯科技(深圳)有限公司 一种网络资源搜索方法及搜索***
US20100057568A1 (en) * 2007-08-11 2010-03-04 Tencent Technology (Shenzhen) Company Ltd. Method and Apparatus for Searching for Online Advertisement Resource
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102314458A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 网络百科数据获取方法及***
CN102737029A (zh) * 2011-04-02 2012-10-17 腾讯科技(深圳)有限公司 搜索方法及***
CN104133916A (zh) * 2014-08-14 2014-11-05 百度在线网络技术(北京)有限公司 搜索结果信息组织方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179472A (zh) * 2007-05-31 2008-05-14 腾讯科技(深圳)有限公司 一种网络资源搜索方法及搜索***
US20100057568A1 (en) * 2007-08-11 2010-03-04 Tencent Technology (Shenzhen) Company Ltd. Method and Apparatus for Searching for Online Advertisement Resource
CN102314458A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 网络百科数据获取方法及***
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器
CN102737029A (zh) * 2011-04-02 2012-10-17 腾讯科技(深圳)有限公司 搜索方法及***
CN104133916A (zh) * 2014-08-14 2014-11-05 百度在线网络技术(北京)有限公司 搜索结果信息组织方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王步康等: "基于依存句法分析的中文语义角色标注", 《中文信息学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866614A (zh) * 2015-06-05 2015-08-26 深圳市爱学堂教育科技有限公司 创建词条的方法及创建词条的装置
CN107148624A (zh) * 2015-06-22 2017-09-08 电子部品研究院 预处理文本的方法以及用于执行该方法的预处理***
CN105243111A (zh) * 2015-09-25 2016-01-13 常熟商数信息技术有限公司 基于层次关系组织的多语种词库管理方法
CN108572954A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种近似词条结构推荐方法和***
CN108572953A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种词条结构的合并方法
CN108572954B (zh) * 2017-03-07 2023-04-28 上海颐为网络科技有限公司 一种近似词条结构推荐方法和***
CN110019656A (zh) * 2017-07-26 2019-07-16 上海颐为网络科技有限公司 一种新建词条相关内容智能推送方法和***
CN108959255A (zh) * 2018-06-28 2018-12-07 北京百度网讯科技有限公司 实体标注数据集构建方法、装置及设备
CN108959228A (zh) * 2018-07-13 2018-12-07 众安信息技术服务有限公司 基于区块链创建、检索、编辑数据的方法及可读存储介质
CN113157996B (zh) * 2020-01-23 2022-09-16 久瓴(上海)智能科技有限公司 文档信息处理方法、装置、计算机设备及可读存储介质
CN113157996A (zh) * 2020-01-23 2021-07-23 久瓴(上海)智能科技有限公司 文档信息处理方法、装置、计算机设备及可读存储介质
CN113282745A (zh) * 2020-02-20 2021-08-20 清华大学 事件百科文档自动生成方法和装置
CN111681769A (zh) * 2020-08-17 2020-09-18 耀方信息技术(上海)有限公司 药品分词搜索方法及***
WO2022111249A1 (zh) * 2020-11-24 2022-06-02 北京字节跳动网络技术有限公司 一种信息展示的方法、装置以及计算机存储介质
CN112464115A (zh) * 2020-11-24 2021-03-09 北京字节跳动网络技术有限公司 一种信息展示的方法、装置以及计算机存储介质
CN116991969A (zh) * 2023-05-23 2023-11-03 暨南大学 可配置语法关系的检索方法、***、电子设备及存储介质
CN116991969B (zh) * 2023-05-23 2024-03-19 暨南大学 可配置语法关系的检索方法、***、电子设备及存储介质

Also Published As

Publication number Publication date
CN104484374B (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN104484374A (zh) 一种创建网络百科词条的方法及装置
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN101539907B (zh) 词性标注模型训练装置、词性标注***及其方法
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
US9740736B2 (en) Linking ontologies to expand supported language
CN110287494A (zh) 一种基于深度学习bert算法的短文本相似匹配的方法
Berardi et al. Word Embeddings Go to Italy: A Comparison of Models and Training Datasets.
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及***
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
CN105930452A (zh) 一种识别自然语言的智能应答方法
CN104050302B (zh) 一种基于图谱模型的话题探测***
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN106970910A (zh) 一种基于图模型的关键词提取方法及装置
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN103440314A (zh) 一种基于Ontology的语义检索方法
CN110442728A (zh) 基于word2vec汽车产品领域的情感词典构建方法
CN111553160B (zh) 一种获取法律领域问句答案的方法和***
JP2022532451A (ja) 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
CN107133212A (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN114841353A (zh) 一种融合句法信息的量子语言模型建模***及其应用
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助***及其控制方法
Mohnot et al. Hybrid approach for Part of Speech Tagger for Hindi language
Yaman et al. Address entities extraction using named entity recognition
CN103177089A (zh) 基于中心块的句义成分关系分层识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant