CN109643315B - 基于结构化网络知识自动生成中文本体库的方法、***、计算机设备和计算机可读介质 - Google Patents

基于结构化网络知识自动生成中文本体库的方法、***、计算机设备和计算机可读介质 Download PDF

Info

Publication number
CN109643315B
CN109643315B CN201780046326.XA CN201780046326A CN109643315B CN 109643315 B CN109643315 B CN 109643315B CN 201780046326 A CN201780046326 A CN 201780046326A CN 109643315 B CN109643315 B CN 109643315B
Authority
CN
China
Prior art keywords
text corpus
chinese text
concept
chinese
concepts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780046326.XA
Other languages
English (en)
Other versions
CN109643315A (zh
Inventor
李应樵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mirum Digital Media Ltd
Original Assignee
Mirum Digital Media Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mirum Digital Media Ltd filed Critical Mirum Digital Media Ltd
Publication of CN109643315A publication Critical patent/CN109643315A/zh
Application granted granted Critical
Publication of CN109643315B publication Critical patent/CN109643315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于结构化网络知识的自动生成中文本体库的方法、***、计算机设备和计算机可读介质。所述方法包括步骤:从结构化知识网络抓取结构化知识,其中结构化知识包括至少一个关注概念用于所述自动中文本体库的生成;过滤无关的链接;提取有关所关注概念的知识;发现所述关注概念的相关联概念;基于余弦相似性度量推断所述关注概念及其相关联概念之间的语义相关性;并且存储推断出的所述语义相关性数据。本发明提供的更有效率的自动中文本体库生成的***和方法,以应对快速发展的数据世界并迎合数据用户的需求。

Description

基于结构化网络知识自动生成中文本体库的方法、***、计算 机设备和计算机可读介质
本申请要求于2016年7月29日提交中国香港特别行政区政府知识产权署、申请号为16109078.8、发明名称为“基于结构化网络知识自动生成中文本体库的方法、***、计算机设备和计算机可读介质”的中国香港特别行政区专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及自动生成本体库的方法和***,特别是基于结构化网络知识自动生成中文本体库。
背景技术
在信息技术的时代,大量的数据每天被上载至网络、企业计算机网络或其他数据库或者从这些地方被下载下来。数据用户总是期待从网络、企业计算机网络或数据库获得他们所需要的各种信息,但是并不是每次均能获得正确的信息。本体表示的是不同概念之间特有的相似性和连接关系,可以用来帮助对网络、企业计算机网络或任何其他数据库获得的信息或文件进行语义搜索。
传统的本体生成通常是专家通过手动输入概念之间的关系来完成的,因此需要耗费许多人力。当前,不同的计算机实现程序,诸如人工神经网络(ANN)可以用于发现语料库中词语之间的语义相关性。然而,ANN需要预先进行训练,因此仍然需要大量人力准备具有多种输入模式的数据。因此采用ANN可能未必能够有效的跟上网络、企业计算机网络或任何数据库数据的更新速度。
本体可以从各种语言的知识中产生。无论运用何种语言,使用者必须以该种语言来处理语料库并且提炼关键字段用于本体生成。某些语言诸如中文,在词语之间没有明确的分隔符,与英文相比在语言处理方面更加困难或复杂,使关键词提取更困难。因此,中文文字语料库的语义内容很不容易理解。自然语言处理(NLP)和潜在语义分析(LSA)在计算机科学中被用于涉及计算机和人类语言之间互动的领域。结合NLP和LSA可对中文文字语料库进行词法、语法、句法和语义分析。这种分析特别涉及词语切分、词性标注、词例提炼、统计分析和词例相关性的确定。然而,由于中文语言的复杂性,NLP和LSA可能未必有效和准确地提炼用于本体生成的正确关键词或概念。
总之,需要一种更有效率的***和方法,优选地需要一种计算机自动实现的方法和***,用于中文本体库生成,以应对快速发展的数据世界和满足数据用户的需求。
发明内容
利用结构化网络知识可以自动生成中文本体库。结构化网络知识是存储在网络上的结构化信息数据库。例如,具有许多基于网络的中文百科全书,诸如百度百科和中文***,这些是流行的由几百万条文章组成的公众知识库。每条文章包含一个主题,该主题通常由具有该主题知识的数据用户手工编辑。如果发现错误或者无效的信息,可以向基于网络的百科全书的主办方汇报,以纠正那些错误或无效的信息。因此每个主题可以被认为是手工编辑的,并且由专家删选的,因此可以被认为是该主题的专家意见。在用于生成本体时,每个主题可以被进一步当作一个概念。此外,数据用户可以通过在文章中***链接展示相关联的文章。这种链接可以被认为是概念中的结合点,因此表示不同概念之间的语义关系。由于结构化的网络知识是基于包括众多数量的概念以及概念之间的关系而建立的,与ANN需要预先训练不同,使用结构化网络知识的生成本体可以自动完成,而无需大量的人力准备数据。因此,本发明不需要任何人力介入,因此在本体生成方面更有效率。
由于中文语言在词语之间没有明确的分隔符,生成中文本体库中提炼的知识的准确性通常依赖于句子分割的方式以及选择哪些词例进行提炼。生成中文本体库通常使用NLP和LSA进行知识提取。NLP和LSA是计算机执行的程序,这些程序进行中文文字语料库的词法、语法、句法和语义分析。NLP和LSA可以被认为使用计算机语言对人的语言进行理解,并且与中文母语的人对中文语料库的理解相比,这种理解可能不够准确有效。考虑到这一点,本发明使用结构化知识网络中的超链接来发现相关联的概念,以有效地提取中文知识。由于这些超链接已经被专家审查过,因此可以认为它们能更准确地描述概念之间的关系。
下文描述的是一种用于基于结构化的网络知识自动生成中文本体库的方法和计算机可读介质,其编码在处理器执行时能使处理器实现该方法的指示,包括下列步骤,从一结构化知识网络中抓取结构化知识,其中的结构化知识包括至少一个用于自动中文本体库生成所关注的概念;过滤无关的链接;提取与所述所关注的概念相关的知识;发现所述所关注的概念的相关联概念;通过余弦相似性的度量推断出所述所关注的概念以及其相关联概念的语义相关性;并且存储推断出的所述语义相关性数据。
优选地,从结构化知识网络抓取的结构化知识的步骤包括下列步骤:通过超文本传输协议(“HTTP”)协议浏览所述的结构化知识;使用广度优选搜索算法访问结构化知识分类页中的超链接,直到访问完所有链接的中文文本语料;从所述结构化知识网络取得至少一个中文文本语料,其中所述中文文本语料的主题、摘要和内容由包含所述中文文本语料的静态超文本标记语言(“HTML”)页面中的HTML头部,标题和主体标签来确定;并且对取得的每个中文文本语料生成链接记录。
进一步,从结构化知识网络抓取的结构化知识的步骤包括下列步骤:对取得的每个中文文本语料生成唯一标识符。
进一步,从结构化知识网络中抓取的结构化知识的步骤包括下列步骤:对取得的每个中文文本语料存储网址(“URL”),标识符和/或最后修改时间。
进一步,从结构化知识网络中抓取的结构化知识的步骤包括下列步骤:以预先设定的时间间隔扫描所有取得的中文文本语料;通过检索是否存在具有相同最后修改时间的匹配记录来产生或更新中文文本语料记录;并且消除所有重复的中文文本语料。
进一步,消除重复的中文文本语料的步骤包括下列步骤:对每个中文文本语料仅保留一个识别符;并且将相同中文文本语料所有其他不同的识别符转换为重定向识别符。
优选地,过滤无关链接的步骤包括下列步骤:对连接到外部网页的无关链接、访问菜单中不涉及所述所关注的概念知识的无关链接、以及在所述结构化知识网络中重复出现的链接进行噪声过滤。
优选地,提取与所述所关注的概念相关的知识的步骤包括下列步骤:从描述所关注概念的中文文本语料中提取相关名词术语。
优选地,发现所述所关注的概念的相关联概念的步骤包括如下步骤:从所关注的概念的中文文本语料中提取超链接列表,其中每个超链接的中文文本语料表示与所述所关注的概念相关的概念。
优选地,通过余弦相似性的度量推断出所述所关注的概念以及其相关联概念的语义相关性的步骤包括如下步骤:计算所述所关注概念的术语频率权重矢量V1;访问所述所关注概念的中文文本语料中的超级链接,从而定位所述所关注的概念的相关联概念;计算每个所述相关联概念的术语频率权重矢量,其中每个所述相关联概念的所述术语频率权重矢代表每个相关联概念的唯一语义;并计算所关注概念和每个相关联概念的术语频率权重矢量之间的余弦相似性。
进一步,由下列方程来计算术语频率权重矢量V1:
V1=(tf(t1,c1),tf(t2,c1),....tf(tn,c1))
其中tf(t1,c1)为所关注概念c1的中文文本语料中的第一个相关术语的术语频率;
tf(t2,c1)为所关注概念c1的中文文本语料中的第二个相关术语的术语频率;并且
tf(tn,c1)为所关注概念c1的中文文本语料中的第n个相关术语的术语频率。
进一步,由下列方程来计算每个相关联概念的术语频率权重矢量:
V2=(tf(t1,c2),tf(t2,c2),....tf(tn,c2))
其中V2为相关联概念c2的术语频率权重矢量;
tf(t1,c2)为所述相关联概念c2的中文文本语料中的第一个相关术语的术语频率;
tf(t2,c2)为所述相关联概念c2的中文文本语料中的第二个相关术语的术语频率;并且
tf(tn,c2)为所述相关联概念c2的中文文本语料中的第n个相关术语的术语频率。
此外,由下列方程来计算所关注的概念和每个相关联概念的术语频率权重矢量之间的余弦相似性的步骤:
其中V1和V2分别为所关注概念c1和相关联概念c2的术语频率权重矢量。
此外,存储推断出的所述语义相关性数据的步骤包括:用网络本体语言存储语义相关性;并对所述语义相关性的信息建立索引。
优选地,使用的网络本体语言是资源描述框架(“RDF”)。
优选地,对所述语义相关性的信息建立索引的步骤包括建立包括所关注概念、相关联概念、相关联概念的数量和RDF图标的概念图。
优选地,从结构化知识网络抓取结构化知识的步骤包括下列步骤:从基于网络的中文百科全书中抓取结构化知识。
优选地,从结构化知识网络抓取结构化知识的步骤包括下列步骤:从百度百科或中文***抓取结构化知识。
还公开了一种基于结构化网络知识自动生成中文本体库的***,包括:网络爬行模块,配置为从结构化知识网络抓取结构化知识;噪声过滤模块,配置为过滤无关链接;知识提取模块,配置为提取中文文本语料中与所关注的概念相关的知识;存储从结构化网络知识中下载的中文文本语料的数据库;以及关系发现模块,配置为提取所关注概念的相关联概念,并且利用余弦相似性的度量计算所关注的概念和相关联的概念之间的语义相关性。
优选地,该无关链接是连接到外部网页的无关链接、访问菜单中不涉及所述所关注的概念知识的无关链接、以及在所述结构化知识网络中重复出现的链接。
此外,该***包括一显示概念图的可视化界面,其中所述概念图包括所关注的概念,相关联概念,相关联概念的数量和RDF图标,其中相关联概念的数量为涉及所述所关注概念的所述相关联概念的总数,所述的RDF图标允许用户下载所述所关注概念的RDF三元组。
优选地,语义相关性由RDF所编码。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于结构化网络知识自动生成中文本体库的***的可能实施方式的方框图。
图2为展示基于结构化网络知识自动生成中文本体库主要步骤的流程图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行;
图3为展示关系发现的进一步步骤的流程图。
图4为概念“三国”的概念图。
图5为以RDF格式显示的主题和相互语义相关性。
图6为一个实施例中计算机设备的内部结构示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照附图中所示的示例,具体描述示范性实施方式的细节,其中全文相似的附图标记涉及相似的元素。
仅通过示意性的方式,附图和下文的描述涉及优选的实施方式。应该注意到的是,根据下文的讨论,这里公开的结构和方法的替代实施方式将毫无疑问地被认为是可行的替代方案,不会偏离要求保护的原则。
在此公开的***、方法和计算机可读介质的实施方式基于结构化的网络知识自动生成中文本体库。
从图1中可见,基于结构化网络知识自动生成中文本体库的***2包括网络爬行模块21,噪声过滤模块22,知识提取模块23,数据库24,关系发现模块25和可视化模块26,每个模块可全部或部分通过软件、硬件或其组合来实现。图2中展示了基于结构化的网络知识自动生成中文本体库的流程图。
在步骤S21,可以通过网络爬行模块21,从网络抓取诸如基于网络的中文百科全书的结构化知识网络的静态HTML网页1。例如,基于网络的中文百科全书可以是著名的百度百科和中文***。每个静态HTML网页1描述了一个特定概念,并且有连到相关网页的链接。为了从结构化知识网页抓取所有的静态HTML网页1(包括所有链接的网页),网络爬行模块21通过HTTP协议浏览结构化知识网络中的目录,并使用广度优先搜索算法访问目录网页中的超链接,直到所有链接的目录均被访问。网络爬行模块21接着从链接的静态HTML网页1中仅取得并提取中文文本语料,其中主题、摘要和内容由被取得的静态HTML页面上的HTML标签(例如头部,标题和主体标签)来确定。下文描述了网络爬行模块21一种可能的实施方式。网络爬行模块21可使用正规表示法″<a(.*?)</a>″从结构化的知识网络中找到所有可能的链接,对每个取得的中文文本语料建立链接记录、并将该链接记录和取得的中文文本语料存入数据库24中。每个从抓取的静态HTML网页1中取得的中文文本语料可以由该被抓取的静态HTML网页1的网址来识别。为了便于识别,基于代表该中文文字语料的网址(“URL”),可为该中文文字语料生成唯一的识别符。例如,如果从URL为http://baike.***.com/view/2347.htm抓取的静态HTML网页1中取得了中文文本语料A,那么该中文文本语料A将具有的标识符为2347。如果从URL为http://baike.***.com/view/ 10088.htm抓取的的静态HTML网页1取得了中文文本语料B,那么该该中文文本语料B将具有的标识符为10088。将每个中文文本语料的URL,标识符和最后修改时间存储在数据库24中。
网络爬行模块21以预先设定的时间间隔扫描所有下载的中文文本,通过检索下载的中文文本语料的最后修改时间是否与现存链接记录中的最后修改时间是否相匹配,来建立或者更新存储的链接记录。网络爬行模块21还可以在两个或多个抓取的具有不同网址的静态HTML网页1中扫描并找出相同的中文文本语料。例如,相同的中文文本语料可能存在于抓取的具有以下不同网址的静态HTML网页1的浏览页和子浏览页下:
(浏览页下)http://baike.***.com/view/1005619.htm
(次浏览页下)http://baike.***.com/subview/1005619/1005619.htm
这种从不同网址取得的中文文本语料的复制将产生不同的识别符并使标识符不唯一。为了消除数据库24中重复的中文文本语料,网络爬行模块21可将次浏览页中的中文文本语料的标识符定为一个重定向标识符,将该中文文本语料重定向至浏览页下的标识符。因此,每个中文文本语料只有一个标识符,从而保持链接记录中标识符的唯一性。
总之,网络爬行模块21能扫描所有用上述正规表示法提取的链接记录,通过<a>标签中匹配的“href”属性值从链接中提取标识符,将该标识符用于寻找数据库24记录的存储在语料中的唯一标识符,并在链接记录重定向标识符存在时对其进行更新。接着,在数据库24中建立所有下载的中文文本语料的链接记录。
在步骤S22,噪声过滤模块22过滤所有连接到外部网页的无关链接、与中文文本语料中描述的知识无关的访问菜单中的无关链接,和结构化知识网络中重复出现的链接。
每个取得的中文文本语料可以代表一个概念,并且这个概念经常是该中文文本语料的主题。概念是一个抽象的想法。通过审视与该概念相关的细节信息,与这个概念相关的事件、人物、物体、地点、时间、特性和特点等等,人们能够理解这个概念。所有上述信息均可以认为是概念的知识。在步骤S23,知识提取模块23提取中文文本语料中的概念知识。有很多提取概念知识的方法。其中一个方法是,提取描述这个概念的中文文本语料中的相关名词术语。可以理解的是,不偏离本发明的精神和范围,可以采取从所有已知或今后发展的手段中衍生出的任何本质上准确的知识提取措施。
从中文文本语料中提取的知识可以用于计算所述中文文本语料的术语频率权重矢量。既然每个中文文本语料代表一个概念,中文文本语料的术语频率权重矢量也可以是一个概念的术语频率权重矢量。V1是所关注概念c1的术语频率权重矢量,并且计算如下:
V1=(tf(t1,c1),tf(t2,c1),....tf(tn,c1))
其中tf(t1,c1)为所关注概念c1的中文文本语料中的第一个相关术语的术语频率;
tf(t2,c1)为所关注概念c1的中文文本语料中的第二个相关术语的术语频率;并且
tf(tn,c1)为所关注概念c1的中文文本语料中的第n个相关术语的术语频率。
中文文本语料中具有连接到其他中文文本语料的超链接。这些超链接中文文本语料代表与原始所关注概念相关联的概念。在步骤S24,关系发现模块25通过计算中文文本语料(代表所关注的概念)和超链接文本语料(代表相关联的概念)上得到的术语频率权重矢量,和计算中文文本语料和超链接中文文本语料术语频率权重矢量的余弦相似性来发现概念之间的联系。
如图3中进一步说明的,对关系发现模块25一个可能的实施方式进行如下描述。在步骤S31,执行从概念c1的已抓取的静态HTML网页1提取超链接列表的步骤。中文文本语料中的每个超链接代表一个相关联的概念。在步骤S32,通过访问所关注概念的中文文本语料中找到的超链接,识别相关联的概念。还可以找到相关联概念的相应术语频率权重矢量。例如,可以在所关注概念c1的中文文本语料中找到的相关联概念c2和c3,而相关联概念c2和c3的术语频率权重矢量可以进行如下计算:
V2=(tf(t1,c2),tf(t2,c2),....tf(tn,c2))
V3=(tf(t1,c3),tf(t2,c3),....tf(tn,c3))
其中V2是相关联概念c2的术语频率权重矢量;
V3是相关联概念c3的术语频率权重矢量;
tf(t1,c2)为相关联概念c2的中文文本语料中的第一个相关术语的术语频率;
tf(t2,c2)为相关联概念c2的中文文本语料中的第二个相关术语的术语频率;并且
tf(tn,c2)为相关联概念c2的中文文本语料中的第n个相关术语的术语频率;
tf(t1,c3)为相关联概念c3的中文文本语料中的第一个相关术语的术语频率;
tf(t2,c3)为相关联概念c3的中文文本语料中的第二个相关术语的术语频率;并且
tf(tn,c3)为相关联概念c3的中文文本语料中的第n个相关术语的术语频率;
在步骤S33,每个相关联的概念就具有代表其唯一语义的术语频率权重矢量。在步骤S34,由余弦相似性度量来推断相关联概念的语义相关性。通过一个概念和其相关联概念的余弦相似性可以推断这两个概念之间的相近程度,即度量一个概念和相关联概念的术语频率权重矢量的余弦角:
其中V1和V2分别是所关注概念c1和相关联概念c2的术语频率权重矢量。
如果两个概念之间的余弦相似性接近1,那么这两个概念之间的内容很大程度上彼此相似。换句话说,这两个概念很大程度上可能是语义相关的。如果两个概念之间的余弦相似性等于0,那么这两个概念具有完全不同的内容,意味着从语义角度来说可能是完全无关的。因此余弦相似性有助于相关联概念相似性的量化。
从数据库24中能取得所有的中文文本语料记录,其中每一个代表一个概念,并且计算每个中文文本语料的术语频率权重矢量。推导出每个中文文本语料记录和所有与其通过超链接相连的中文文本语料记录之间的余弦相似性。主要的主体可以由正式语言进行编码,例如网络本体语言“OWL”,资源描述框架(“RDF”或“RDFS”)。也可以使用其他本体语言。在本实施方式中,如图5所示,中文文本语料转换为RDF三元组。所有具有术语频率权重的相关联概念也以RDF三元组的方式被记录下来。例如,具有语义相关性的中文文本语料的所有相关联的概念以RDF格式在步骤S35进行存储,而在步骤S36为具有语义相关性信息的RDF文件建立索引。生成的RDF三元组和存储的RDF数据可以用于进一步的查询和操作。
为了便于在生成中文本体库时进行概念的检索,可以建立标题和摘要的索引。可以通过度量概念的相关性来实现概念检索和展示相关联概念在概念图中。
在一个实施方式中,以如图4中显示的概念图用户界面的形式,***2包括可视化界面26,从而便于展开搜索。可视化界面26展示了一个概念图,其中所关注的概念51(即本实施方式中指“三国”)展示在图中央,周边展示所有相关联的概念52。所关注的概念51下的一个数字代表与所关注概念51相关联概念52的总数目。如图4所显示的,与“三国”相关联的概念共有707个。该可视化界面26还可以展示RDF图标,允许用户下载所关注概念51的RDF三元组。不偏离本公开的范围,所关注的概念、相关联概念、RDF图标数目的位置和方向可以变化。
如图6所示,在一个实施例中,提供了计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作***、数据库和计算机可读指令,该计算机可读指令用于实现一种用于基于结构化网络知识自动生成中文本体库的方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个设备的运行。该计算机设备的内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种用于基于结构化网络知识自动生成中文本体库的方法。计算机设备的网络接口用于据以与外部的终端通过网络连接通信。图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在此提供特别参考示例性实施方式的描述和示例,但是可以理解的是在权利要求的精神和范围下的变体和修正也是有效的。上述具体实施方式展示了说明书可能的范围,但不限于该公开的范围。

Claims (18)

1.一种用于基于结构化网络知识自动生成中文本体库的方法,包括下列步骤:
-从网络抓取基于网络的中文百科全书的结构化知识网络的静态HTML网页,通过所述结构化知识的超文本传输协议浏览所述结构化知识网络中的目录;
使用广度优选搜索算法访问目录中的超链接,直到所有链接的目录均被访问;从所述链接的静态HTML网页中取得至少一个中文文本语料,其中所述中文文本语料的主题、摘要和内容由被取得的HTML网页上的HTML头部,标题和主体标签来确定;并且
对取得的每个中文文本语料生成链接记录;并将所述链接记录和取得的中文文本语料存入数据库中;其中
所述每个从抓取的静态HTML网页中取得的中文文本语料由该被抓取的静态HTML网页的网址URL作为唯一的识别符来识别;
所述数据库还包括所述每个中文文本语料的URL,标识符和最后修改时间;
所述网络抓取步骤,还包括,
判断最后修改时间是否与现存链接记录中的最后修改时间是否相配,来更新存储的链接记录;
在相同的中文文本语料存在于具有不同网址的静态HTML网页的浏览页和子浏览页下时,将所述浏览页中的中文文本语料的标识符定为一个重定向标识符,将该中文文本语料重定向至浏览页下的标识符;
其中结构化的知识包括至少一个所关注的概念用于自动生成中文本体库;所述每个所取得的中文文本语料为代表该中文文本语料主题的概念;-过滤所有连接到外部网页的无关链接、与所述中文文本语料中描述的知识无关的访问菜单中的无关链接和与结构化知识网络中重复出现的链接;
-通过提取描述所述中文文本语料中的相关名词术语来提取所述中文文本语料的概念知识,所述概念知识代表所关注的概念;
通过所述提取的概念知识计算所述中文文本语料的术语频率权重矢量V1;
所述中文文本语料中具有连接到其他中文文本语料的超链接,所述超链接中的中文文本语料代表与所关注的概念相关联的概念;
-通过计算所述中文文本语料和超链接文本语料上得到的术语频率权重矢量,和计算所述中文文本语料和超链接文本语料权重矢量的余弦相似性来发现概念之间的关系;包括:
执行从第一概念的已抓取的静态HTML网页提取超链接列表,所述中文文本语料中的每个超链接代表一个相关联的概念;
通过访问所关注概念的中文文本语料中找到的超链接,识别相关联概念,和相关联概念的相应术语频率权重矢量;
每个相关联的概念具有代表唯一语义的术语频率权重矢量;
通过余弦相似性的度量推断出所述所关注的概念以及其相关联概念的语义相关性;并且
-所述中文文本语料转换为资源描述框架RDF格式,将具有语义相关性的中文文本语料的所有相关联的概念以所述RDF格式进行存储。
2.根据权利要求1的方法,进一步包括下列步骤:
以预先设定的时间间隔扫描所有取得的中文文本语料;
通过检索是否存在具有相同的最后修改时间的匹配记录来产生或更新中文文本语料记录;并且
消除所有重复的中文文本语料。
3.根据权利要求1的方法,其中通过所述提取的概念知识计算所述中文文本语料的术语频率权重矢量V1的步骤由下列方程来实现:
Vl=(tf(tl,cl),tf(t2,cl),....tf(tn,cl))
其中tf(tl,cl)为所关注概念c1的中文文本语料中的第一个相关术语的术语频率;t1为第一个相关术语;
tf(t2,cl)为所关注概念c1的中文文本语料中的第二个相关术语的术语频率;t2为第二个相关术语;并且
tf(tn,cl)为所关注概念c1的中文文本语料中的第n个相关术语的术语频率;tn为第n个相关术语。
4.根据权利要求1的方法,其中通过访问所关注概念的中文文本语料中找到的超链接,识别相关联概念,和相关联概念的相应术语频率权重矢量的步骤由下列方程来实现:
V2=(tf(tl,c2),tf(t2,c2),....tf(tn,c2))
其中V2为相关联概念c2的术语频率权重矢量;
tf(tl,c2)为所述相关联概念c2的中文文本语料中的第一个相关术语的术语频率;t1为第一个相关术语;
tf(t2,c2)为所述相关联概念c2的中文文本语料中的第二个相关术语的术语频率;t2为第二个相关术语;并且
tf(tn,c2)为所述相关联概念c2的中文文本语料中的第n个相关术语的术语频率;tn为第n个相关术语。
5.根据权利要求1的方法,其中通过余弦相似性的度量推断出所述所关注的概念以及其相关联概念的语义相关性的步骤,由下列方程来计算:
其中V1和V2分别为所关注概念c1和相关联概念c2的术语频率权重矢量。
6.根据权利要求1的方法,其中所述中文文本语料转换为资源描述框架RDF格式,将具有语义相关性的中文文本语料的所有相关联的概念以所述RDF格式进行存储的步骤包括:对所述语义相关性的信息建立索引。
7.根据权利要求6的方法,其中所述对所述语义相关性的信息建立索引的步骤包括:建立包括所关注概念、相关联概念、相关联概念的数量和RDF图标的概念图。
8.根据权利要求1的方法,其中所述从网络抓取基于网络的中文百科全书的结构化知识网络的静态HTML网页的步骤为:从百度百科或中文***抓取结构化知识。
9.一种基于结构化网络知识自动生成中文本体库的***,包括:
-网络抓取模块,配置为从网络抓取基于网络的中文百科全书的结构化知识网络的静态HTML网页,通过所述结构化知识的超文本传输协议浏览所述结构化知识网络中的目录;
使用广度优选搜索算法访问目录中的超链接,直到所有链接的目录均被访问;从所述链接的静态HTML网页中取得至少一个中文文本语料,其中所述中文文本语料的主题、摘要和内容由被取得的HTML网页上的HTML头部,标题和主体标签来确定;并且
对取得的每个中文文本语料生成链接记录;并将所述链接记录和取得的中文文本语料存入数据库中;其中
所述每个从抓取的静态HTML网页中取得的中文文本语料由该被抓取的静态HTML网页的网址URL作为唯一的识别符来识别;所述数据库还包括所述每个中文文本语料的URL,标识符和最后修改时间;
所述网络抓取模块,还包括,
配置为判断最后修改时间是否与现存链接记录中的最后修改时间是否相配,来更新存储的链接记录;
在相同的中文文本语料存在于具有不同网址的静态HTML网页的浏览页和子浏览页下时,将所述浏览页中的中文文本语料的标识符定为一个重定向标识符,将该中文文本语料重定向至浏览页下的标识符;
其中结构化的知识包括至少一个所关注的概念用于自动生成中文本体库;所述每个所取得的中文文本语料为代表该中文文本语料主题的概念;
-噪声过滤模块,配置为过滤所有连接到外部网页的无关链接、与所述中文文本语料中描述的知识无关的访问菜单中的无关链接和与结构化知识网络中重复出现的链接;
-知识提取模块,配置为通过提取描述所述中文文本语料中的相关名词术语来提取所述中文文本语料的概念知识,所述概念知识代表所关注的概念;通过所述提取的概念知识计算所述中文文本语料的术语频率权重矢量V1;
所述中文文本语料中具有连接到其他中文文本语料的超链接,所述超链接中的中文文本语料代表与所关注的概念相关联的概念;
-关系发现模块,配置为通过计算所述中文文本语料和超链接文本语料上得到的术语频率权重矢量,和计算所述中文文本语料和超链接文本语料权重矢量的余弦相似性来发现概念之间的关系;包括:
执行从第一概念的已抓取的静态HTML网页提取超链接列表,所述中文文本语料中的每个超链接代表一个相关联的概念;
通过访问所关注概念的中文文本语料中找到的超链接,识别相关联概念,和相关联概念的相应术语频率权重矢量;
每个相关联的概念具有代表唯一语义的术语频率权重矢量;
以及
利用余弦相似性的度量计算所关注的概念和相关联的概念之间的语义相关性;以及
-存储模块,配置为将所述中文文本语料转换为资源描述框架RDF格式,将具有语义相关性的中文文本语料的所有相关联的概念以所述RDF格式进行存储。
10.根据权利要求9的***,进一步包括:
重复语料消除模块,配置为以预先设定的时间间隔扫描所有取得的中文文本语料;
通过检索是否存在具有相同的最后修改时间的匹配记录来产生或更新中文文本语料记录;并且
消除所有重复的中文文本语料。
11.根据权利要求9的***,其中所述知识提取模块中所述通过所述提取的概念知识计算所述中文文本语料的术语频率权重矢量V1的配置由下列方程来实现:
Vl=(tf(tl,cl),tf(t2,cl),....tf(tn,cl))
其中tf(tl,cl)为所关注概念c1的中文文本语料中的第一个相关术语的术语频率;t1为第一个相关术语;
tf(t2,cl)为所关注概念c1的中文文本语料中的第二个相关术语的术语频率;t2为第二个相关术语;并且
tf(tn,cl)为所关注概念c1的中文文本语料中的第n个相关术语的术语频率;tn为第n个相关术语。
12.根据权利要求9的***,其中所述关系发现模块中通过访问所关注概念的中文文本语料中找到的超链接,识别相关联概念,和相关联概念的相应术语频率权重矢量的配置由下列方程来实现:
V2=(tf(tl,c2),tf(t2,c2),....tf(tn,c2))
其中V2为相关联概念c2的术语频率权重矢量;
tf(tl,c2)为所述相关联概念c2的中文文本语料中的第一个相关术语的术语频率;t1为第一个相关术语;
tf(t2,c2)为所述相关联概念c2的中文文本语料中的第二个相关术语的术语频率;t2为第一个相关术语;并且
tf(tn,c2)为所述相关联概念c2的中文文本语料中的第n个相关术语的术语频率;tn为第n个相关术语。
13.根据权利要求9的***,其中关系发现模块中通过余弦相似性的度量推断出所述所关注的概念以及其相关联概念的语义相关性的配置,由下列方程来计算:
其中V1和V2分别为所关注概念c1和相关联概念c2的术语频率权重矢量。
14.根据权利要求9的***,其中存储模块中所述中文文本语料转换为资源描述框架RDF格式,将具有语义相关性的中文文本语料的所有相关联的概念以所述RDF格式进行存储的配置包括:对所述语义相关性的信息建立索引。
15.根据权利要求14的***,其中对所述语义相关性的信息建立索引的配置包括:建立包括所关注概念、相关联概念、相关联概念的数量和RDF图标的概念图。
16.根据权利要求9的***,其中所述网络抓取模块中从网络抓取基于网络的中文百科全书的结构化知识网络的静态HTML网页的配置为:从百度百科或中文***抓取结构化知识。
17.一种计算机可读介质,其编码在处理器执行时能使处理器实现一方法的指示,所述方法为权利要求1-8任意一个的用于基于结构化网络知识自动生成中文本体库的方法。
18.一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行一种如权利要求1-8任意一个所述的用于基于结构化网络知识自动生成中文本体库的方法。
CN201780046326.XA 2016-07-29 2017-07-28 基于结构化网络知识自动生成中文本体库的方法、***、计算机设备和计算机可读介质 Active CN109643315B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
HK16109078.8 2016-07-29
HK16109078.8A HK1220319A2 (zh) 2016-07-29 2016-07-29 基於結構化網絡知識的自動中文本體庫建構方法、系統及計算機可讀介質
PCT/CN2017/094881 WO2018019289A1 (zh) 2016-07-29 2017-07-28 基于结构化网络知识自动生成中文本体库的方法、***、计算机设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN109643315A CN109643315A (zh) 2019-04-16
CN109643315B true CN109643315B (zh) 2024-05-07

Family

ID=58633644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780046326.XA Active CN109643315B (zh) 2016-07-29 2017-07-28 基于结构化网络知识自动生成中文本体库的方法、***、计算机设备和计算机可读介质

Country Status (4)

Country Link
CN (1) CN109643315B (zh)
HK (1) HK1220319A2 (zh)
TW (1) TW201804345A (zh)
WO (1) WO2018019289A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018232290A1 (en) * 2017-06-16 2018-12-20 Elsevier, Inc. Systems and methods for automatically generating content summaries for topics
CN111859975A (zh) * 2019-04-22 2020-10-30 广东小天才科技有限公司 一种扩充样本语料的语料正则式的方法和***
CN110502640A (zh) * 2019-07-30 2019-11-26 江南大学 一种基于建构的概念词义发展脉络的提取方法
CN110851612B (zh) * 2019-08-29 2023-08-18 国家计算机网络与信息安全管理中心 基于百科知识的移动应用知识图谱复合型补全方法及装置
CN111783422B (zh) 2020-06-24 2022-03-04 北京字节跳动网络技术有限公司 一种文本序列生成方法、装置、设备和介质
CN115658931B (zh) * 2022-12-27 2023-04-07 清华大学 百科知识图谱动态更新方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728134A (zh) * 2004-07-30 2006-02-01 国际商业机器公司 基于超文本的多语言网络信息搜索方法和***
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析***及方法
CN105518661A (zh) * 2013-08-12 2016-04-20 微软技术许可有限责任公司 经由挖掘的超链接文本的片段来浏览图像

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019174A1 (en) * 2013-07-09 2015-01-15 Honeywell International Inc. Ontology driven building audit system
US9672197B2 (en) * 2014-10-14 2017-06-06 Sugarcrm Inc. Universal rebranding engine
US9678946B2 (en) * 2014-11-10 2017-06-13 Oracle International Corporation Automatic generation of N-grams and concept relations from linguistic input data
CN105488105B (zh) * 2015-11-19 2019-11-05 百度在线网络技术(北京)有限公司 信息提取模板的建立方法、知识数据的处理方法和装置
CN105843965B (zh) * 2016-04-20 2019-06-04 广东精点数据科技股份有限公司 一种基于url主题分类的深层网络爬虫表单填充方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728134A (zh) * 2004-07-30 2006-02-01 国际商业机器公司 基于超文本的多语言网络信息搜索方法和***
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析***及方法
CN105518661A (zh) * 2013-08-12 2016-04-20 微软技术许可有限责任公司 经由挖掘的超链接文本的片段来浏览图像

Also Published As

Publication number Publication date
WO2018019289A1 (zh) 2018-02-01
CN109643315A (zh) 2019-04-16
HK1220319A2 (zh) 2017-04-28
TW201804345A (zh) 2018-02-01

Similar Documents

Publication Publication Date Title
CN109643315B (zh) 基于结构化网络知识自动生成中文本体库的方法、***、计算机设备和计算机可读介质
AU2019201531B2 (en) An in-app conversational question answering assistant for product help
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
US8180751B2 (en) Using an encyclopedia to build user profiles
WO2013133985A1 (en) Entity augmentation service from latent relational data
Dong et al. A survey in semantic search technologies
Al-Khalifa et al. Folksonomies versus automatic keyword extraction: An empirical study
Grigalis Towards web-scale structured web data extraction
JP2024091709A (ja) 文作成装置、文作成方法および文作成プログラム
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
Boughareb et al. A graph-based tag recommendation for just abstracted scientific articles tagging
Kiran et al. An approach towards establishing reference linking in desktop reference manager
Kramár et al. Disambiguating search by leveraging a social context based on the stream of user’s activity
Maree Multimedia context interpretation: a semantics-based cooperative indexing approach
Zhang et al. A semantics-based method for clustering of Chinese web search results
WO2009035871A1 (en) Browsing knowledge on the basis of semantic relations
Saranya et al. A Study on Competent Crawling Algorithm (CCA) for Web Search to Enhance Efficiency of Information Retrieval
Khatavkar et al. Use of noun phrases in identification of a website
Mourão et al. The Anatomy of a Web Archive Image Search Engine-Technical Report
Blanco-Fernández et al. Automatically Assembling a Custom-Built Training Corpus for Improving the Learning of In-Domain Word/Document Embeddings
JP2012243130A (ja) 情報検索装置、方法、及びプログラム
Annalakshmi et al. Structuring of Web Pages using XML Framework for Information Filtering
Yokoo et al. Semantics-based news delivering service
Zhang Smart Image Search System Using Personalized Semantic Search Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant