CN111159390B - 信息提取方法、设备及存储介质 - Google Patents
信息提取方法、设备及存储介质 Download PDFInfo
- Publication number
- CN111159390B CN111159390B CN201911414416.7A CN201911414416A CN111159390B CN 111159390 B CN111159390 B CN 111159390B CN 201911414416 A CN201911414416 A CN 201911414416A CN 111159390 B CN111159390 B CN 111159390B
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- child
- ancestor
- node set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000015654 memory Effects 0.000 claims description 25
- 238000013135 deep learning Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 9
- 238000012216 screening Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种信息提取方法、设备及存储介质,所述方法包括:获取全局节点集和用于提取目标信息的关键词,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息;根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点;提取所述第一节点集中每个节点包含的页面信息,得到目标信息。
Description
技术领域
本申请涉及信息处理领域,尤其涉及一种信息提取方法、设备及存储介质。
背景技术
随着信息的急剧增长,自然语言处理技术已经逐步从统计学方法转向深度学习方法,为处理语言问题提供了先进的解决思路。但深度学习方法必须依赖于大量的文本数据,百科由于其具有的易于获得、文本质量高、涵盖领域广泛的优点,为深度学习的文本数据提供了依据。
百科是拥有海量文本的、免费的、由人工编辑而成的各类电子百科全书。从百科中提取文本数据时,由于百科的文本数据量巨大,分类众多,如何从百科的海量信息中提取出合适的文本数据,是使用深度学习方法时亟需解决的一个难题。
基于进行深度学习的数据往往只需要其中某一领域相关的文本数据,现有的从百科中提取文本数据的方法是:直接将该领域下包括的有限层的文本数据作为深度学习的文本数据,无法提取到所有相关的文本数据,且提取的文本数据中存在大量的与该领域不相关的文本数据,导致进行深度学习的文本数据不全面且不准确,增加了深度学习处理时长,降低了处理效率和准确度。
发明内容
有鉴于此,本申请实施例为解决现有技术中存在的问题而提供一种信息提取方法、设备及存储介质。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种信息提取方法,包括:
获取全局节点集和用于提取目标信息的关键词,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息;
根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点;
提取所述第一节点集中每个节点包含的页面信息,得到目标信息。
第二方面,本申请实施例提供一种信息提取装置,包括:
获取模块,用于获取全局节点集和用于提取目标信息的关键词,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息;
筛选模块,用于根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点;
提取模块,用于提取所述第一节点集中每个节点包含的页面信息,得到目标信息。
第三方面,本申请实施例提供一种信息提取设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的方法。
第四方面,本申请实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的方法。
本申请实施例提供的信息提取方法中,首先获取全局节点集和用于提取目标信息的关键词,根据全局节点集的网状结构存储方式,在所述全局节点集中筛选出与所述关键词对应的第一节点集,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点;然后提取所述第一节点集中每个节点包含的页面信息,得到目标信息。通过筛选得到与关键词对应的第一节点集,该第一节点集中的节点为未出现主题漂移的节点,提高了提取的目标信息的准确率,并且通过是否出现主题漂移确定提取页面信息的节点,不再仅限于有限层的节点,使得提取的目标信息更加全面。
附图说明
图1为本申请实施例提供的信息提取方法的网络架构示意图;
图2是本申请实施例提供的信息提取终端的组成结构示意图;
图3为本申请实施例提供的信息提取方法的一种实现流程示意图;
图4A为本申请实施例提供的信息提取方法的另一种实现流程示意图;
图4B为本申请实施例提供的一种节点的存储结构示意图;
图5A为本申请实施例提供的信息提取方法的又一种实现流程示意图;
图5B为本申请实施例提供的另一种节点的存储结构示意图;
图6为本申请实施例提供的信息提取方法的再一种实现流程示意图;
图7为本申请实施例提供的信息提取方法的再一种实现流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
下面对本发明实施例中用到的名称进行介绍。
1)本体(Ontology):在计算机科学与信息科学领域,理论上,本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机***之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。
2)领域本体(Domain Ontology):是对学科概念的一种描述,包括学科中的概念、概念的属性、概念间的关系以及属性和关系的约束。由于知识具有显著的领域特性,所以领域本体可以表示某一特定领域范围内的特定知识。这里的“领域”是根据本体构建者的需求来确立的,它可以是一个学科领域,可以是某几个领域的一种结合,也可以是一个领域中的一个小范围。
为了更好地理解本申请实施例,首先对相关技术中的信息提取方法及存在的缺点进行说明。
随着信息的急剧增长,自然语言处理技术已经逐步从统计学方法转向深度学习方法,为处理语言问题提供了最先进的解决思路。然而,基于神经网络的深度学习方法依赖于大量的训练文本。百科是拥有海量文本的、免费的、由人工编辑而成的各类电子百科全书,因此具有易于获得、文本质量高、涵盖领域广泛的优点。但百科的文本数量巨大,分类众多,而通常只需要其中某个领域相关的文本数据。因此能够完整而高效的从百科中抽取出和领域有关的文本内容,对进一步的工作有很大的意义。
在相关技术中,百科的存储类似于网络拓扑结构,百科中所有节点组成了网状结构的全局节点集。一种收集领域文本的方法,是从全局节点集中选择一个起始节点,基于固定层数向下遍历,得到与起始节点相关的节点集,然后提取该节点集中的各个节点包含的页面信息,得到该起始节点的领域文本数据。这种基于固定层数的方法简单易行,但由于百科是由社会全员编辑而成,对页面、概念、层次等没有严格规范和界定,因此它的分类体系较为松散、缺乏一致性,往往会出现主题漂移、不能完整收集相关数据的问题。相关技术在提取文本数据时,直接将遍历到的有限层的节点集中节点页面数据作为提取到的文本数据,无法提取所有与起始节点相关的文本数据,导致提取的文本数据不够全面;并且,节点集中存在与起始节点出现主题漂移的节点,使得提取的文本数据中存在大量的与起始节点领域不相关的文本数据,导致提取的文本数据不够准确。进一步的,采用提取到的文本数据进行深度学习的文本数据时,增加了深度学习处理时长,降低了处理效率和准确度。
基于以上问题,在本申请实施例中,提供一种信息提取方法,通过在全局节点集中筛选第一节点集,该第一节点集中包括的节点为与关键词未出现主题漂移的节点,通过第一节点集中的节点提取文本数据,提高了根据关键词提取的文本数据的准确率,并且通过是否出现主题漂移确定提取页面信息的节点,不再仅限于有限层的节点,使得提取的文本数据更加全面。
图1为本申请实施例提供的信息提取方法的网络架构示意图,如图1所示,在该网络架构中,至少包括信息提取设备100、服务器200和网络300。其中,信息提取设备100可以是移动电话(手机)、平板电脑、笔记本电脑、台式电脑等能够进行网络通信的终端。信息提取设备100至少包括信息提取装置,用户可以通过信息提取设备100中的信息提取装置提取目标信息。为实现支撑一个示例性应用,信息提取设备100通过网络300和服务器200建立通信连接,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
在该网络架构中,可以是由信息提取设备100响应于用户执行的搜索关键词的领域目标信息的操作指令,通过网络300向服务器200发送用于获取全局节点集的第一请求信息,服务器200根据该第一请求信息将其存储的全局节点集携带于第一响应信息中返回给信息提取设备100。然后信息提取设备100在全局节点集中通过预设相关关系,筛选出与关键词对应的、且未出现主题漂移的节点组成第一节点集,进一步提取第一节点集中每个节点的页面信息,从而得到关键词领域的目标信息。
本申请实施例提供的设备可以实施为硬件或者软硬件结合的方式,下面说明本申请实施例提供的设备的各种示例性实施。
根据图2示出的信息提取设备的示例性结构,可以预见信息提取设备100的其他的示例性结构,因此这里所描述的结构不应视为限制,例如可以省略下文所描述的部分组件,或者,增设下文所未记载的组件以适应某些应用的特殊需求。
图2所示的信息提取设备100包括:至少一个处理器110、存储器140、至少一个网络接口120和用户接口130。信息提取设备100中的每个组件通过总线***150耦合在一起。可理解,总线***150用于实现这些组件之间的连接通信。总线***150除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***150。
用户接口130可以包括显示器、键盘、鼠标、触感板和触摸屏等。
存储器140可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)。易失性存储器可以是随机存取存储器(RAM,Random Acces s Memory)。本申请实施例描述的存储器140旨在包括任意适合类型的存储器。
本申请实施例中的存储器140能够存储数据以支持信息提取设备100的操作。这些数据的示例包括:用于在信息提取设备100上操作的任何计算机程序,如操作***和应用程序。其中,操作***包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
作为本申请实施例提供的方法采用软件实施的示例,本申请实施例所提供的方法可以直接体现为由处理器110执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器140,处理器110读取存储器140中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器110以及连接到总线150的其他组件)完成本申请实施例提供的方法。
作为示例,处理器110可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
将结合本申请实施例提供的设备的示例性应用和实施,说明本申请实施例提供的信息提取方法。
参见图3,图3为本申请实施例提供的信息提取方法的一种实现流程示意图,应用于图1所示的信息提取设备。本实施例所述将结合图3示出的步骤进行说明。
步骤S301,获取全局节点集和用于提取目标信息的关键词。
其中,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息。
本实施例中,信息提取设备获取全局节点集时,可以从服务器上获取。服务器上存储有百科信息,也存储有这些信息的节点,通过节点与信息之间的索引关系建立访问连接。服务器上还存储有所有节点之间的拓扑关系,服务器上存储的所有节点构成全局节点集,在全局节点集中,除叶子节点外,其余每个节点可存在多个子节点,且除全局唯一的一个根节点外,每个节点可以从属于至少一个父节点,可见该全局节点集中的节点之间按照网状的拓扑结构存储。
本实施例中,所述用于提取目标信息的关键词可以是预先存储在信息提取设备上的关键词,或者是通过对用户输入的语句进行语义分析后提取的关键词,又或者是从其他终端上接收关键词,还可以是通过用户在信息提取设备上执行的输入操作指令来获取关键词。当通过用户在信息提取设备上执行的输入操作指令来获取关键词时,用户执行的输入操作指令可以是通过键盘键入关键词、或通过鼠标点击在全局节点集中选择关键词。本实施例中,用于提取目标信息的关键词可以是多个,多个关键词可以是相关的词,也可以是不相关的词。
本实施例中,可以是接收到进行信息提取的操作指令后,信息提取设备获取全局节点集和关键词,还可以是预先获取全局节点集和关键词并保存在自身存储器中,当接收到进行信息提取的操作指令后,直接从自身存储器中获取。
步骤S302,根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集。
这里,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点。
在全局节点集中确定关键词对应的节点,根据全局节点集的网状结构,从关键词对应的节点开始,沿着网状结构的路径向下遍历,同时去除与关键词出现主题漂移的节点,得到第一节点集。
若用于提取目标信息的关键词是多个,筛选出的第一节点集为各个关键词分别进行筛选得到的各个关键词对应的节点的总集。
步骤S303,提取所述第一节点集中每个节点包含的页面信息,得到目标信息。
得到与关键词对应的第一节点集后,提取第一节点集中每个节点包含的页面信息,将提取的这些页面信息作为待提取的目标信息。这里,页面信息可以是在获取全局节点集的同时,存储在信息提取设备上的,也可以是得到第一节点集后,向服务器发送携带第一节点集的请求信息,该请求信息用于获取第一节点集包括的节点的页面信息。
当在获取全局节点集的同时获取全局节点集的页面信息时,可快速提取得到目标信息,提高获取目标信息的效率。尤其是当多次进行信息提取时,只需向服务器发送一次请求信息,大大提高了提取多次目标信息的效率,节省了提取时间。
当得到第一节点集后,再从服务器获取第一节点集中每个节点包含的页面信息,获取的目标信息为服务器当前时刻的信息,可确保提取的目标信息的实时性,提高了目标信息的准确率。并且,只需从服务器下载第一节点集中每个节点的页面信息,大大减少了下载的数据量,节省了下载时间,减少了占用信息提取设备的存储空间。
本申请实施例提供的信息提取方法中,首先获取全局节点集和用于提取目标信息的关键词,其中,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息;然后根据全局节点集的网状结构存储方式,在所述全局节点集中筛选出与所述关键词对应的第一节点集,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点;最后提取所述第一节点集中每个节点包含的页面信息,得到目标信息。本实施例通过筛选得到与关键词对应的第一节点集,该第一节点集中的节点为未出现主题漂移的节点,提高了提取的目标信息的准确率,并且通过是否出现主题漂移确定提取页面信息的节点,不再仅限于有限层的节点,使得提取的目标信息更加全面。
在图3所示实施例的基础上,本申请实施例再提供一种信息提取方法。图4A为本申请实施例提供的信息提取方法的另一种实现流程示意图,如图4A所示,本实施例提供的信息提取方法包括以下步骤:
步骤S401,获取全局节点集和用于提取目标信息的关键词。
其中,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息。
本实施例中的步骤S401和步骤S405参见图3所示实施例中对应部分的描述,此处不再赘述。步骤S402至步骤S404是“根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集”的一种实现方式,具体如下:
步骤S402,在所述全局节点集中确定所述关键词对应的节点,得到起始节点。
获取到关键词后,若关键词是通过用户执行的鼠标点击操作,在全局节点集中选择的关键词,该选择的关键词即为全局节点集中与关键词对应的节点,也即起始节点。若关键词并非通过用户在全局节点集中选择的,而是通过其他方式获取的,如用户通过键盘输入的关键词、或用户从其他终端上接收的关键词等,需要进一步在全局节点集中确定该关键词对应的节点。若在全局节点集中查找到与该关键词相匹配的节点,则确定该节点为关键词对应的节点,即起始节点。若在全局节点集中没有查找到与该关键词对应的节点,需要对该关键词进行语义分析,将全局节点集中语义与该关键词最接近的节点,确定为该关键词对应的节点,从而得到起始节点。
步骤S403,从所述起始节点开始,按照所述网状结构向下遍历,获取所述全局节点集中与所述关键词满足预设相关关系且未出现主题漂移的第一节点。
在网状结构的全局节点集中,沿着网络结构的路径,从起始节点开始向下遍历,得到满足预设相关关系、且与关键词未出现主题漂移的所有第一节点。
在实际遍历过程中,可采用深度优先遍历,也可采用广度优先遍历,遍历得到的节点个数相等,但节点先后顺序不同。图4B为本申请实施例提供的一种节点的存储结构示意图,如图4B所示,当从起始节点“computing output d evices”按照网状结构以深度优先开始遍历,遍历结果为“loudspeakers”、“gra phics hardware”、“display adapter”、“graphics chips”、“video”、“music and v ideo”、“animation music”、“film music”、“video hardware”。当从起始节点“c ategories”按照网状结构以广度优先开始遍历,遍历结果为“loudspeakers”、“g raphics hardware”、“video”、“display adapter”、“graphicschips”、“music and video”、“video hardware”、“animation music”、“film music”。
得到遍历的所有节点后,进一步判断各个节点是否与关键词满足预设相关关系,并确定各个节点是否出现主题漂移,将遍历结果中满足预设相关关系、且为出现主题漂移的节点确定为第一节点。
步骤S404,将所述起始节点和获取到的第一节点确定为第一节点集。
这里,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点。
将起始节点和所有第一节点确定为在全局节点集中筛选出的与关键词对应的第一节点集。
步骤S405,提取所述第一节点集中每个节点包含的页面信息,得到目标信息。
本申请实施例提供的信息提取方法中,通过在全局节点集中确定关键词对应的节点,得到起始节点,然后按照网状结构的全局节点集,从起始节点开始向下遍历,获取全局节点集中与关键词满足预设相关关系且未出现主题漂移的第一节点,从而得到包括起始节点和所有第一节点的第一节点集,该第一节点集中的节点为未出现主题漂移的节点,提高了提取的目标信息的准确率,并且通过是否出现主题漂移确定提取页面信息的节点,不再仅限于有限层的节点,使得提取的目标信息更加全面。
在图4A所示实施例的基础上,本申请实施例再提供一种信息提取方法。图5A为本申请实施例提供的信息提取方法的又一种实现流程示意图,如图5A所示,本实施例提供的信息提取方法包括以下步骤:
步骤S501,获取全局节点集和用于提取目标信息的关键词。
其中,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息。
本实施例中的步骤S501、步骤S502、步骤S509和步骤S510参见图4A所示实施例中对应部分的描述,此处不再赘述。
步骤S502,在所述全局节点集中确定所述关键词对应的节点,得到起始节点。
步骤S503至步骤S508是“从所述起始节点开始,按照所述网状结构向下遍历,获取所述全局节点集中与所述关键词满足预设相关关系且未出现主题漂移的第一节点”的一种实现方式,具体如下:
步骤S503,建立当前节点集。
这里,所述当前节点集中包括所述起始节点。
建立当前节点集,在初始时,当前节点集中仅包括起始节点这一个节点。仍以图4B举例说明,当前节点集为{computing output devices}。
步骤S504,在所述全局节点集中获取所述当前节点集中包括的各个节点的所有子节点。
本实施例提供的方法采用的是广度优先遍历,在全局节点集中获取当前节点集包括的每一个节点的子节点。在初始时当前节点集仅包括起始节点这一个节点,即在全局节点集中获取起始节点的所有子节点,即获取“computing output devices”的所有子节点为“loudspeakers”、“graphics hardware”和“video”。
步骤S505,删除所述所有子节点中出现主题漂移的子节点,得到子节点集。
对所有子节点进行判断,确定其是否为出现主题漂移的子节点,若是,则删除该子节点,若不是,将其添加到子节点集中,对当前节点集中各个节点的所有子节点判断完成后,删除了其中所有出现主题漂移的子节点,得到子节点集。经过判断得知,“loudspeakers”、“graphics hardware”和“video”均未出现主题漂移,因此得到的子节点集为{loudspeakers、graphics hardware、video}。
步骤S506,判断所述子节点集是否为空。
当子节点集不为空时,表明子节点集中的子节点为未出现主题漂移的子节点,由于当前得到的子节点集为{loudspeakers、graphics hardware、video},显然不为空,进入步骤S507。
当子节点集为空时,表明当前节点集中各个节点不存在子节点,或者当前节点集中各个节点的所有子节点均为出现主题漂移的子节点,已对所有子节点进行了删除,此时进入步骤S509。
步骤S507,将所述子节点集中的子节点确定为第一节点。
由于子节点集中的子节点为与关键词满足预设相关关系、且未出现主题漂移的节点,因此可确定其为第一节点。本实施例中,子节点“loudspeakers”、“graphics hardware”和“video”均为起始节点“computing output devices”的未出现主题漂移的子孙节点,将其都可作为第一节点集中的第一节点。
步骤S508,将所述子节点集更新为当前节点集。
为了对起始节点的所有子孙节点进行判断,得到子节点集不为空时,需要进一步判断子节点集中各个子节点的子节点,此时,将子节点集更新为当前节点集,返回步骤S504。
本实施例中,将子节点集更新为当前子节点集,再进行下一层子节点的判断时,不会再遍历已出现主题漂移的子节点的子孙节点,即无需对已出现主题漂移的节点的子节点继续判断其是否漂移,减少了判断次数,缩短了得到第一节点集的时间,从而可尽快得到目标信息。
步骤S509,将所述起始节点和获取到的第一节点确定为第一节点集。
这里,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点。
当步骤S506判断得到子节点为空时,表明已对起始节点的所有子孙节点进行了是否出现主题漂移的判断,此时,将起始节点和每次循环中得到的第一节点确定为第一节点集。
步骤S510,提取所述第一节点集中每个节点包含的页面信息,得到目标信息。
本申请实施例提供的信息提取方法中,通过建立当前节点集,在全局节点集中获取当前节点集中包括的各个节点的所有子节点,删除所述所有子节点中出现主题漂移的子节点,得到子节点集,当子节点集不为空时,得到当前节点集的各个节点的未出现主题漂移的子节点,将这些子节点确定为第一节点,然后将子节点集更新为当前节点集继续下一层的遍历;当子节点集为空时,表明已对起始节点的所有子孙节点中出现的漂移节点进行了删除,此时,将起始节点和每次循环中得到的第一节点确定为第一节点集,确保了第一节点集中的节点为未出现主题漂移的节点,从而根据第一节点集中的节点提取目标信息时,可提高提取的目标信息的准确率,并且通过是否出现主题漂移确定提取页面信息的节点,不再仅限于有限层的节点,使得提取的目标信息更加全面。
在一些实施例中,所述步骤S505“删除所述所有子节点中出现主题漂移的子节点,得到子节点集”,可以通过以下步骤实现:
步骤S5051,在所述全局节点集中,获取所述每个子节点的直接父节点。
其中,子节点的直接父节点为所述子节点的所有父节点中与所述子节点的相关度最大的父节点。
当节点出现主题漂移时,该节点的直接父节点不存在于起始节点的子孙节点中。基于此,本实施例中,通过判断子节点的直接父节点是否存在第一节点集中来确定其是否出现主题漂移。
步骤S5052,若当前子节点的直接父节点不属于所述当前节点集,确定所述当前子节点为出现主题漂移的子节点。
当经过判断得知子节点的直接父节点不属于当前节点集时,表明该子节点的直接父节点在起始节点的子孙节点之外的全局节点集中,该子节点与当前节点集中的父节点的相关度小于其与直接父节点的相关度,确定该子节点已出现主题漂移。
步骤S5053,从所述所有子节点中删除出现主题漂移的子节点,得到子节点集。
在步骤S5051至步骤S5053所示的实施例中,通过在全局节点集中获取每个子节点的直接父节点,当该直接父节点属于当前节点集时,确定该子节点未出现主题漂移,当该直接父节点不属于当前节点集时,确定该子节点出现主题漂移,实现了对节点是否出现主题漂移情况的判断,从所有子节点中删除出现主题漂移的子节点,即可得到所有未出现主题漂移的子节点。
在一些实施例中,所述步骤S5051“在所述全局节点集中,获取所述每个子节点的直接父节点”可以通过以下步骤实现:
步骤S5051a,在所述全局节点集中,获取当前子节点的所有父节点。
获取子节点的直接父节点时,首先根据全局节点集的网状结构,获取该子节点的所有父节点,即获取所有不经过其他节点即可直接到达该子节点的节点,将这些节点作为该子节点的父节点。
步骤S5051b,计算所述当前子节点与所述当前子节点的各个父节点的相关度。
得到当前子节点的所有父节点后,进一步计算该子节点与每个父节点的相关度,选择相关度最大的父节点为该子节点的直接父节点。
步骤S5051c,将相关度最大的父节点确定为所述当前子节点的直接父节点。
在步骤S5051a至步骤S5053c所示的实施例中,通过计算子节点与其各个父节点的相关度,将相关度最大的父节点作为该子节点的直接父节点,从而可根据子节点的直接父节点来判断子节点是否出现主题漂移。
在一些实施例中,所述步骤S5051b“计算所述当前子节点与所述当前子节点的各个父节点的相关度”可以通过以下步骤实现:
步骤S051b1,在所述全局节点集中,获取所述当前子节点的第i个父节点的祖先节点,得到第一祖先节点集。
这里,i=1,2,…,M,M为当前子节点的父节点的个数,M为正整数。
当前子节点的第i个父节点的祖先节点,即从全局节点集的根节点开始,所有可到达第i个父节点的路径上的所有节点均为该第i个父节点的祖先节点。图5B为本申请实施例提供的另一种节点的存储结构示意图,如图5B所示,当前子节点为“music and video”,当前子节点的第1个父节点“musical culture”的祖先节点为“categories”、“entertainment”和“music”,由此得到第一祖先节点集{categories,entertainment,music}。
步骤S051b2,基于所述当前子节点的各个子节点的祖先节点,确定第二祖先节点集。
根据当前子节点“music and video”的各个子节点即“animation music”的祖先节点,确定第二祖先节点集。
本实施例中,步骤S051b2可以通过以下步骤确定:
步骤Sb21,获取所述当前子节点的各个子节点的祖先节点,得到第三祖先节点集。
仍如图5B所示,当前子节点“music and video”的子节点为“animation music”,“animation music”的祖先节点包括“categories”、“entertainment”、“a nimation”、“music”、“musical culture”、“music and video”、“information”、“c omputer”、“computing output devices”和“video”,由此得到第三祖先节点集{c ategories,entertainment,animation,music,musical culture,music and video,information,computer,computing output devices,video}。
步骤Sb22,从所述第三祖先节点集中去除经过所述第i个父节点的路径后所包括的祖先节点,得到第二祖先节点集。
第三祖先节点集中经过第1个父节点“musical culture”的路径为1→2→4→5→6,去除该路径后,剩余的路径为1→2→3和1→8→9→10→11→6,此时祖先节点包括“categories”、“entertainment”、“animation”、“music and video”、“information”、“computer”、“computing output devices”和“video”,由此得到第二祖先节点集{categories,entertainment,animation,music and video,inf ormation,computer,computing output devices,video}。
步骤S051b3,根据所述第一祖先节点集和第二祖先节点集计算所述当前子节点与所述第i个父节点的相关度。
根据第一祖先节点集{categories,entertainment,music},和第二祖先节点集{categories,entertainment,animation,music and video,information,comp uter,computing output devices,video},计算当前子节点“music and video”与第1个父节点“musical culture”的相关度。
本实施例中,步骤S051b3可以通过以下步骤确定:
步骤Sb31,确定所述第一祖先节点集与所述第二祖先节点集的交集,得到共享祖先集。
计算第一祖先节点集{categories,entertainment,music}与第二祖先节点集{categories,entertainment,animation,music and video,information,computer,computing output devices,video}的交集,得到的共享祖先集为{categories,entertainment}。
步骤Sb32,确定所述第一祖先节点集与所述第三祖先节点集的并集,得到祖先并集。
计算第一祖先节点集{categories,entertainment,music}与第三祖先节点集{categories,entertainment,animation,music,musical culture,music and video,information,computer,computing output devices,video}的并集,得到的祖先并集为{categories,entertainment,animation,music,musical culture,music a nd video,information,computer,computing output devices,video}。
步骤Sb33,分别确定所述共享祖先集的第一元素个数和所述祖先并集的第二元素个数。
统计共享祖先集{categories,entertainment}的元素个数,得到的第一元素个数为2,统计祖先并集{categories,entertainment,animation,music,musical c ulture,music and video,information,computer,computing output devices,v ideo}的元素个数,得到的第二元素个数为10。
步骤Sb34,将所述第一元素个数和所述第二元素个数的比值确定为所述当前子节点与所述第i个父节点的相关度。
当前子节点“music and video”与第1个父节点“musical culture”的相关度=第一元素个数/第二元素个数=0.2。
本实施例提供的信息提取方法,通过获取当前子节点的各个子节点的祖先节点得到第三祖先节点集,从第三祖先节点集中去除经过第i个父节点的路径后所包括的祖先节点得到第二祖先节点集,根据第一祖先节点集和第二祖先节点集计算得到当前子节点与第i个父节点的相关度,从而可根据相关度从多个父节点中选择相关度最大的父节点为当前子节点的直接父节点,由此可以结合当前节点集确定当前子节点是否出现主题漂移,从而得到第一节点集。
基于前述的实施例,本申请实施例再提供一种信息提取方法,应用于图1所示的网络架构,图6为本申请实施例提供的信息提取方法的再一种实现流程示意图,如图6所示,本实施例提供的信息提取方法包括以下步骤:
步骤S601,服务器发送全局节点集至信息提取设备。
本实施例中,信息提取设备获取的全局节点集是从服务器上获取的。服务器可以是主动发送全局节点集至信息提取设备,还可以是接收到某一触发指令后,再将全局信息集发送至信息提取设备,该触发指令,可以是服务器发出的、也可以是信息提取设备发出的。在实际实现时,服务器可在接收到信息提取设备发送的触发指令,如用于获取全局节点集的请求指令后,发送全局节点集至信息提取设备。
步骤S602,信息提取设备响应于用户在信息提取设备上执行的输入操作指令,获取用于提取目标信息的关键词。
这里,步骤S601和步骤S602不限定先后顺序,信息提取设备可以先接收全局节点集,然后获取关键词,还可以是先获取关键词,再接收全局节点集。并且,可以预先接收全局节点集并保存在自身存储器中,过一段时间后,再获取关键词。
步骤S603,信息提取设备在所述全局节点集中确定所述关键词对应的节点,得到起始节点。
获取到关键词后,在全局节点集中选择语义最接近的节点作为与关键词对应的节点,即起始节点。
步骤S604,信息提取设备建立当前节点集。
这里,所述当前节点集中包括所述起始节点。
步骤S605,信息提取设备在所述全局节点集中获取所述当前节点集中包括的各个节点的所有子节点。
这里,可采用广度优先遍历法,在全局节点集中获取当前节点集包括的每一个节点的子节点。
步骤S606,信息提取设备在所述全局节点集中,获取当前子节点的所有父节点。
获取子节点的直接父节点时,首先根据全局节点集的网状结构,获取该子节点的所有父节点,即获取所有不经过其他节点即可直接到达该子节点的节点,将这些节点作为该子节点的父节点。
步骤S607,信息提取设备在所述全局节点集中,获取所述当前子节点的第i个父节点的祖先节点,得到第一祖先节点集。
其中,i=1,2,…,M,当前子节点有M个父节点,即M为当前子节点的父节点的个数,M为正整数。
当前子节点的第i个父节点的祖先节点,即从全局节点集的根节点开始,所有可到达第i个父节点的路径上的所有节点均为该第i个父节点的祖先节点。将第i个父节点的所有祖先节点作为第一祖先节点集。
步骤S608,信息提取设备获取所述当前子节点的各个子节点的祖先节点,得到第三祖先节点集。
步骤S609,信息提取设备从所述第三祖先节点集中去除经过所述第i个父节点的路径后所包括的祖先节点,得到第二祖先节点集。
这里,第二祖先节点集可以步骤S609的方式获取,也可以通过以下步骤得到:首先,根据全局节点集的网络结构,获取从根节点到当前子节点的各个子节点的所有路径,作为第一路径集,并获取从根节点到第i个父节点的所有路径,作为第二路径集;然后从第一路径集中去除第二路径集,将剩余的路径所经过的所有节点作为第二祖先节点集。
步骤S610,信息提取设备确定所述第一祖先节点集与所述第二祖先节点集的交集,得到共享祖先集。
步骤S611,信息提取设备确定所述第一祖先节点集与所述第三祖先节点集的并集,得到祖先并集。
步骤S612,信息提取设备分别确定所述共享祖先集的第一元素个数和所述祖先并集的第二元素个数。
步骤S613,信息提取设备将所述第一元素个数和所述第二元素个数的比值确定为所述当前子节点与所述第i个父节点的相关度。
步骤S614,信息提取设备将相关度最大的父节点确定为所述当前子节点的直接父节点。
其中,子节点的直接父节点为所述子节点的所有父节点中与所述子节点的相关度最大的父节点。
步骤S615,信息提取设备判断当前子节点的直接父节点是否属于所述当前节点集。
若当前子节点的直接父节点属于当前节点集,表明当前子节点未出现主题漂移,进入步骤S606。若当前子节点的直接父节点不属于当前节点集,表明当前子节点出现主题漂移,进入步骤S616。
步骤S616,信息提取设备确定所述当前子节点为出现主题漂移的子节点。
步骤S617,信息提取设备从所述所有子节点中删除出现主题漂移的子节点,得到子节点集。
步骤S618,信息提取设备判断所述子节点集是否为空。
当子节点集不为空时,表明子节点集中的子节点为未出现主题漂移的子节点,进入步骤S619。当子节点集为空时,表明当前节点集中各个节点不存在子节点,或者当前节点集中各个节点的所有子节点均为出现主题漂移的子节点,已对所有子节点进行了删除,此时进入步骤S621。
步骤S619,信息提取设备将所述子节点集中的子节点确定为第一节点。
由于子节点集中的子节点为与关键词满足预设相关关系、且未出现主题漂移的节点,因此可确定其为第一节点。
步骤S620,信息提取设备将所述子节点集更新为当前节点集。
为了对起始节点的所有子孙节点进行判断,得到子节点集不为空时,需要进一步判断子节点集中各个子节点的子节点,此时,将子节点集更新为当前节点集,返回步骤S605。
步骤S621,信息提取设备将所述起始节点和获取到的第一节点确定为第一节点集。
这里,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点。
步骤S622,信息提取设备提取所述第一节点集中每个节点包含的页面信息,得到目标信息。
本申请实施例提供的信息提取方法中,在全局节点集中通过筛选得到与关键词对应的第一节点集,该第一节点集中的节点为未出现主题漂移的节点,提高了提取的目标信息的准确率,并且通过是否出现主题漂移确定提取页面信息的节点,不再仅限于有限层的节点,使得提取的目标信息更加全面。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本体最早是一个哲学的分支,随着人工智能的发展,被赋予了新的含义。获得广泛的认可的定义是:共享概念模型的明确的形式化规范说明。本体的概念越高层,代表的含义越抽象、越概括。本体的概念在分类体系中越靠下层,代表的含义越具体、越细化。本体的概念相似度是指概念的关联程度以及含义的近似程度。本体的概念相似度的一个基本假设是,两个相似概念在本体中具有共同的祖先节点,常用的算法包括基于路径距离和基于信息熵两大类。百科中的节点本身包含了对客观世界的分类,它的含义可以认为是本体中的一个概念,因此节点的分类体系则可以看作是一个描述开放领域知识的本体。
在百科中,除全局的唯一的一个根节点外,每个节点从属于至少一个父节点,每个节点至少包括一个子节点。于是整个百科的节点形成一个网状的、有层次的拓扑结构,其中下级节点可以看作是上级节点的子类,是对上级节点的细化。
为了从百科中抽取出感兴趣的目标文档数据,可将百科的节点视为一个本体,每个节点在网状结构中的位置,也代表其含义,因此利用本体的概念理论和相似度计算方法,从网状结构的节点中选择出与领域相关的节点,提取选中节点的页面文档,即为该领域相关的文档数据。
在本申请实施例提供的信息提取方法中,首先根据领域,在百科的节点中确定的一个节点c_start作为感兴趣的入口节点(也即其他实施例中的与关键词对应的节点)。以c_start为起点(也即其他实施例中的起始节点),可以用广度或深度优先算法,根据节点层级的上下位关系,开始逐层向下遍历,得到全部的子节点集合。遍历过程中遇到的子节点其中包含与起点话题有关的节点(也即其他实施例中的未出现主题漂移的节点),也包含了无关的漂移节点(也即其他实施例中的出现主题漂移的节点)。为了得到准确的节点领域的页面文档集合,需要判断和排除这些无关的漂移节点。当确认某一个节点为漂移节点,则停止该节点分支的遍历。图7为本申请实施例提供的信息提取方法的再一种实现流程示意图,如图7所示,本实施例提供的信息提取方法包括以下步骤:
步骤S701,起点入队列。
步骤S702,判断队列是否为空。
当队列为空时,表明已对子节点集合中所有子节点中存在的漂移节点进行了排除,此时已得到所有未出现主题漂移的节点,进入步骤S710。当队列不为空时,表明在子节点集合中还存在未判断是否出现主题漂移的子节点,此时进入步骤S703。
步骤S703,将队头节点出队。
将队头节点作为节点v_p,按照广度优先遍历,得到节点v_p的所有子节点。
步骤S704,获取节点v_p的子节点v。
从节点v_p的第一个子节点开始,到节点v_p的最后一个子节点为止,开始循环判断节点v_p的各个子节点是否出现主题漂移,判断过程可以如下述步骤S705至步骤S707。
步骤S705,判断子节点v是否获取成功。
若子节点v获取成功,表明还存在未判断是否出现主题漂移的子节点,即还未判断到节点v_p的最后一个子节点,此时进入步骤S706。若子节点v获取失败,表明节点v_p不存在子节点,或者节点v_p的所有子节点均已进行了是否出现主题漂移的判断,此时开始队列中下一个节点的子节点判断,返回步骤S703。
步骤S706,计算子节点v与各个父节点的相关度。
子节点v可能拥有多个父节点,从上下位的关系来看,这些父节点均与节点v_p相关。但各自的相关度大小一般是不同的,考虑子节点v的间接子节点(即子节点v的子节点的子节点)与间接父节点(即子节点v的父节点的父节点)的内容时,会存在语义内容关系更紧密的父节点。本实施例中,将关系最密切,即相关度最大的父节点称作直接父节点。子节点v的子节点,是子节点v含义的具象和细化,也将为子节点v贡献语义含义。
基于此,本实施例在计算子节点v与第i个父节点v_pi的相关度时,将第i个父节点v_pi的祖先节点与子节点v的各个子节点共同纳入考虑范围。
本实施例中,子节点v与第i个父节点v_pi的相关度rel(v,v_pi)的计算公式,如下述公式1所示:
其中,LCA(v_sj,v_pi)是子节点v的第j个子节点v_sj与子节点v的第i个父节点v_pi的共享路径上的节点的集合,其中,v_sj与v_pi的共享路径不包括由v_pi出发到根节点的路径,例如,LCA(animation,music)={categories,ente rtainment}。
t(v)为子节点v的超概念(也即其他实施例中的祖先节点集),t(v)={v_gp│v_gp为节点v的祖先节点},例如,t(music)={categories,entertainment}。
||表示计算集合的元素个数,例如|LCA(animation,music)|=|{categories,entertainment}|=2
以图5B为例,分别计算子节点6与第1个父节点5、第2个父节点11的相关度:
由以上的公式可得rel(6,5)>rel(6,11),即子节点6与第1个父节点5的相关度,大于子节点6与第2个父节点11的相关度。
步骤S707,判断子节点v与节点v_p的相关度是否为最大。
网状结构中的子节点v,视为本体中的一个概念。要判断子节点v是否属于起点领域的范围,也即计算v的父节点v_p1,v_p2,…,v_pn中,与子节点v的相关度最大的节点,记为c_p*,本实施例中,与子节点v的相关度最大的节点c_p*的计算方式如下述公式2所示:
c_p*=max{rel(v,v_pi)} (2)
其中,i为大于0且小于等于n的正整数。max{rel(v,v_pi)}为返回的节点是子节点v与子节点v的n个父节点的相关度最大的父节点,即c_p*。
判断子节点与起点领域之间的相关性,即判断子节点是否属于起点领域,可通过计算子节点v的各个父节点v_p1,v_p2,…,v_pn的相关度,比较与子节点v的各个父节点v_p1,v_p2,…,v_pn的相关度的大小来确定子节点v是否出现主题漂移,若与子节点v相关度最大的父节点是节点v_p,那么子节点v与起点领域相关,即子节点v未出现主题漂移;若与子节点v相关度最大的父节点不是节点v_p,那么子节点v与起点领域不相关,即子节点v出现主题漂移。
例如,以节点10为起点,先遍历到子节点11,子节点11不存在其他父节点,其与节点10的相关度最大,子节点11未出现主题漂移;继续向下遍历到子节点6,根据上述步骤S706的计算得知,子节点6与节点5的相关度大于子节点6与节点11的相关度,因此子节点6与节点11的相关度不为最大,子节点6出现主题漂移。
当子节点v与节点v_p的相关度为最大,表明子节点v未出现主题漂移,即子节点v与起点领域相关,此时需要继续判断子节点v的子节点,将子节点v的子节点入队列,进入步骤S708。
当子节点v与节点v_p的相关度不为最大,表明子节点v出现主题漂移,即子节点v与起点领域相关,无需再继续判断已出现主题漂移的子节点v的子节点,此时无需将子节点v的子节点入队列,直接开始节点v_p的下一个子节点的判断,进入步骤S709。
步骤S708,将子节点v添加至队列。
确定了节点v_p的当前子节点v未出现主题漂移后,继续对节点v_p的下一个子节点v进行判断,进入步骤S709。
步骤S709,获取节点v_p的下一个子节点v。
获取节点v_p的下一个子节点v之后,继续对子节点v进行是否出现主题漂移的判断,返回步骤S705。
步骤S710,获取所有未出现主题漂移的节点的页面文档,得到起点领域相关的页面文档。
本实施例提供的信息提取方法,通过将百科的节点看作是一个本体,根据领域,在网状结构中选定一个节点作为起点,表示需要提取的领域中最高层次概念的节点入口,从入口节点开始基于该网状结构向下逐层遍历,根据每个节点所在的目录结构中的位置,将网状结构与本体的概念相似度计算相结合,来确定该节点的页面文档是否起点领域相关,当与起点领域相关时,继续向下遍历,当与起点领域无关时,无需再向下遍历,放弃该节点的后续处理,从而动态的确定需要遍历的深度,相比遍历固定深度获取页面文档的方式,本实施例的方法充分利用百科节点的网状结构存储方式,从网状结构中判断节点与起点的相关性,直观高效,且易于理解,获取到的页面文档不仅排除了不相关的噪音页面文档,而且文档更加全面,提高了文档数据的质量。
下面继续说明本申请实施例提供的信息提取装置80的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器140的信息提取装置80中的软件模块可以包括:
获取模块81,用于获取全局节点集和用于提取目标信息的关键词。
这里,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息。
筛选模块82,用于根据所述网状结构,在所述全局节点集中筛选出与所述关键词对应的第一节点集。
这里,所述第一节点集中包括的节点为与所述关键词满足预设相关关系,且未出现主题漂移的节点。
提取模块83,用于提取所述第一节点集中每个节点包含的页面信息,得到目标信息。
在一些实施例中,所述筛选模块82,进一步包括:
第一确定子模块,用于在所述全局节点集中确定所述关键词对应的节点,得到起始节点;
获取子模块,用于从所述起始节点开始,按照所述网状结构向下遍历,获取所述全局节点集中与所述关键词满足预设相关关系且未出现主题漂移的第一节点;
第二确定子模块,用于将所述起始节点和获取到的第一节点确定为第一节点集。
在一些实施例中,所述获取子模块,进一步包括:
建立单元,用于建立当前节点集。
这里,所述当前节点集中包括所述起始节点。
获取单元,用于在所述全局节点集中获取所述当前节点集中包括的各个节点的所有子节点;
删除单元,用于删除所述所有子节点中出现主题漂移的子节点,得到子节点集;
确定单元,用于当所述子节点集不为空时,将所述子节点集中的子节点确定为第一节点。
更新单元,用于将所述子节点集更新为当前节点集。
在一些实施例中,所述删除单元,进一步包括:
获取子单元,用于在所述全局节点集中,获取所述每个子节点的直接父节点。
其中,子节点的直接父节点为所述子节点的所有父节点中与所述子节点的相关度最大的父节点;
确定子单元,用于若当前子节点的直接父节点不属于所述当前节点集,确定所述当前子节点为出现主题漂移的子节点;
删除子单元,用于从所述所有子节点中删除出现主题漂移的子节点,得到子节点集。
在一些实施例中,所述获取子单元,还用于:
在所述全局节点集中,获取当前子节点的所有父节点;
计算所述当前子节点与所述当前子节点的各个父节点的相关度;
将相关度最大的父节点确定为所述当前子节点的直接父节点。
在一些实施例中,所述获取子单元,进一步还用于:
在所述全局节点集中,获取所述当前子节点的第i个父节点的祖先节点,得到第一祖先节点集,i=1,2,…,M,M为正整数;
基于所述当前子节点的各个子节点的祖先节点,确定第二祖先节点集;
根据所述第一祖先节点集和第二祖先节点集计算所述当前子节点与所述第i个父节点的相关度。
在一些实施例中,所述获取子单元,进一步还用于:
获取所述当前子节点的各个子节点的祖先节点,得到第三祖先节点集;
从所述第三祖先节点集中去除经过所述第i个父节点的路径后所包括的祖先节点,得到第二祖先节点集。
确定所述第一祖先节点集与所述第二祖先节点集的交集,得到共享祖先集;
确定所述第一祖先节点集与所述第三祖先节点集的并集,得到祖先并集;
分别确定所述共享祖先集的第一元素个数和所述祖先并集的第二元素个数;
将所述第一元素个数和所述第二元素个数的比值确定为所述当前子节点与所述第i个父节点的相关度。
这里需要指出的是:以上信息提取装置实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果。对于本申请信息提取装置实施例中未披露的技术细节,本领域的技术人员请参照本申请方法实施例的描述而理解。
本申请实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3至图7示出的方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (9)
1.一种信息提取方法,所述方法包括:
获取全局节点集和用于提取目标信息的关键词,所述全局节点集中的节点按照网状结构存储,所述全局节点集中的各个节点包含的页面信息组成全局信息;
在所述全局节点集中确定所述关键词对应的节点,得到起始节点;
从所述起始节点开始,按照所述网状结构向下遍历,获取所述起始节点的所有未出现主题漂移的后代节点作为第一节点;将所述起始节点和所述第一节点确定为第一节点集;
提取所述第一节点集中每个节点包含的页面信息,得到目标信息。
2.根据权利要求1所述的方法,所述从所述起始节点开始,按照所述网状结构向下遍历,获取所述起始节点的所有未出现主题漂移的后代节点作为第一节点,包括:
建立当前节点集,所述当前节点集中包括所述起始节点;
在所述全局节点集中获取所述当前节点集中包括的各个节点的所有子节点;
删除所述所有子节点中出现主题漂移的子节点,得到子节点集;
当所述子节点集不为空时,将所述子节点集中的子节点确定为第一节点,并将所述子节点集更新为当前节点集。
3.根据权利要求2所述的方法,所述删除所述所有子节点中出现主题漂移的子节点,得到子节点集,包括:
在所述全局节点集中,获取所述每个子节点的直接父节点,其中,子节点的直接父节点为所述子节点的所有父节点中与所述子节点的相关度最大的父节点;
若当前子节点的直接父节点不属于所述当前节点集,确定所述当前子节点为出现主题漂移的子节点;
从所述所有子节点中删除出现主题漂移的子节点,得到子节点集。
4.根据权利要求3所述的方法,所述在所述全局节点集中,获取所述每个子节点的直接父节点,包括:
在所述全局节点集中,获取当前子节点的所有父节点;
计算所述当前子节点与所述当前子节点的各个父节点的相关度;
将相关度最大的父节点确定为所述当前子节点的直接父节点。
5.根据权利要求4所述的方法,所述当前子节点有M个父节点,对应地,所述计算所述当前子节点与所述当前子节点的各个父节点的相关度,包括:
在所述全局节点集中,获取所述当前子节点的第i个父节点的祖先节点,得到第一祖先节点集,i=1,2,…,M,M为正整数;
基于所述当前子节点的各个子节点的祖先节点,确定第二祖先节点集;
根据所述第一祖先节点集和第二祖先节点集计算所述当前子节点与所述第i个父节点的相关度。
6.根据权利要求5中所述的方法,所述基于所述当前子节点的各个子节点的祖先节点,确定第二祖先节点集,包括:
获取所述当前子节点的各个子节点的祖先节点,得到第三祖先节点集;
从所述第三祖先节点集中去除经过所述第i个父节点的路径后所包括的祖先节点,得到第二祖先节点集。
7.根据权利要求6所述的方法,所述根据所述第一祖先节点集和第二祖先节点集计算所述当前子节点与所述第i个父节点的相关度,包括:
确定所述第一祖先节点集与所述第二祖先节点集的交集,得到共享祖先集;
确定所述第一祖先节点集与所述第三祖先节点集的并集,得到祖先并集;
分别确定所述共享祖先集的第一元素个数和所述祖先并集的第二元素个数;
将所述第一元素个数和所述第二元素个数的比值确定为所述当前子节点与所述第i个父节点的相关度。
8.一种信息提取设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至6任一项所述的方法。
9.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911414416.7A CN111159390B (zh) | 2019-12-31 | 2019-12-31 | 信息提取方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911414416.7A CN111159390B (zh) | 2019-12-31 | 2019-12-31 | 信息提取方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159390A CN111159390A (zh) | 2020-05-15 |
CN111159390B true CN111159390B (zh) | 2024-06-18 |
Family
ID=70560042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911414416.7A Active CN111159390B (zh) | 2019-12-31 | 2019-12-31 | 信息提取方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159390B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776714A (zh) * | 2016-11-21 | 2017-05-31 | 辽宁工程技术大学 | 检索方法、装置和*** |
CN108512765A (zh) * | 2017-02-28 | 2018-09-07 | 中国科学院声学研究所 | 一种基于网络节点分布式Pagerank的网络内容扩散方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527448B2 (en) * | 2011-12-16 | 2013-09-03 | Huawei Technologies Co., Ltd. | System, method and apparatus for increasing speed of hierarchial latent dirichlet allocation model |
CN110033851B (zh) * | 2019-04-02 | 2022-07-26 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、存储介质及服务器 |
-
2019
- 2019-12-31 CN CN201911414416.7A patent/CN111159390B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776714A (zh) * | 2016-11-21 | 2017-05-31 | 辽宁工程技术大学 | 检索方法、装置和*** |
CN108512765A (zh) * | 2017-02-28 | 2018-09-07 | 中国科学院声学研究所 | 一种基于网络节点分布式Pagerank的网络内容扩散方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111159390A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3929769A1 (en) | Information recommendation method and apparatus, electronic device, and readable storage medium | |
CN110457439B (zh) | 一站式智能写作辅助方法、装置和*** | |
US7860817B2 (en) | System, method and computer program for facet analysis | |
US20190213407A1 (en) | Automated Analysis System and Method for Analyzing at Least One of Scientific, Technological and Business Information | |
US7596574B2 (en) | Complex-adaptive system for providing a facted classification | |
CN110597981B (zh) | 一种采用多策略自动生成摘要的网络新闻概要*** | |
US10002182B2 (en) | System and method for computerized identification and effective presentation of semantic themes occurring in a set of electronic documents | |
CN108647244B (zh) | 思维导图形式的主题教学资源集成方法、网络存储*** | |
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
US10678820B2 (en) | System and method for computerized semantic indexing and searching | |
CN110489558A (zh) | 文章聚合方法和装置、介质和计算设备 | |
CN108509405A (zh) | 一种演示文稿的生成方法、装置以及设备 | |
CN112749326A (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
Visvam Devadoss et al. | Efficient daily news platform generation using natural language processing | |
El Abdouli et al. | Sentiment analysis of moroccan tweets using naive bayes algorithm | |
CN107220250A (zh) | 一种模板配置方法及*** | |
CN115757689A (zh) | 一种信息查询***、方法及设备 | |
US20180365324A1 (en) | Method of data organization and data searching for use in constructing evidence-based beliefs | |
CN113742496B (zh) | 一种基于异构资源融合的电力知识学习***及方法 | |
Choi et al. | Chrological big data curation: A study on the enhanced information retrieval system | |
Spitz et al. | Topexnet: entity-centric network topic exploration in news streams | |
CN111159390B (zh) | 信息提取方法、设备及存储介质 | |
CN115062135B (zh) | 一种专利筛选方法与电子设备 | |
CN110609991A (zh) | 文本生成方法、电子装置及存储介质 | |
CN115270776A (zh) | 一种领域知识库中的概念自动获取方法、***、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |