CN109359299A

CN109359299A - 一种基于商品数据的物联网设备能力本体自构建方法

Info

Publication number: CN109359299A
Application number: CN201811136995.9A
Authority: CN
Inventors: 马超; 刘弋峰; 谢海永; 潘博文; 李赟; 田承东
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-02-19

Abstract

本发明属于物联网技术领域，具体为一种基于商品数据的物联网设备能力本体自构建方法，其中构建方法包括：通过网络爬虫抓取网页数据；基于网页结构特征抽取能力描述信息；对所述能力描述信息进行分词和词性标注；根据词性标注采用支持向量机算法抽取命名实体；计算命名实体中的能力术语间的关系；构建能力本体。本发明的优点在于：针对物联网中的商品信息，从而使得构建出的能力本体结构简洁、自身的规范性更好，更加适合于实际应用；在支持向量机SVM的基础上，分别通过知网义原和聚类分析的方法，建立了能力概念间的层次关系以及其所对应能力间的相似关系；采用了中文词法分析工具包使得整个能力本体的建立流程为中文更加便于操作。

Description

一种基于商品数据的物联网设备能力本体自构建方法

技术领域

本发明属于物联网技术领域，具体为一种基于商品数据的物联网设备能力本体自构建方法。

背景技术

近年来随着物联网技术的飞速发展，物联网设备的种类越来越丰富，感知和控制能力从广度和深度都达到了一个新的层次，为物联网的智能化提供了条件，同时也提出了挑战。从信息化和智能化角度看，物联网存在的问题主要表现在以下三个方面：

一是大量异构信息的存在，阻碍了物联网设备的互联互通和数据的共享。长期以来，各国对物联网的理解不一致，语言不一致，在研究过程中对事物的标识方式也不能统一；各个行业对设备的描述方式不同，对同类型数据的表示方式不统一。二是数据和信息无法被物联网中的使用主体(计算机、智能设备等)理解，数据的自动处理程度受限。早在2003年，Vagan Terziyan就已经提出当前物联网中的用户已经不仅仅局限于人类，智能设备已经作为新的“用户”出现在物联网中，而数据和信息无法被智能设备理解，也就无法实现自动处理和设备间的协作。同样，由于计算机无法理解物联网中的数据，导致物联网管理平台和分析控制***只能进行简单的数据处理，严重影响了数据的有效利用和处理速率。三是对物联网智能化的需求与期望日益提升，而以上两点成为了阻碍物联网实现更高智能的关键因素。实现物联网的智能化，不仅需要设备具备较强的信息处理能力，也要求设备能够正确的理解和使用信息。

语义技术逐步运用于资源描述、物联网数据共享以及信息的整合过程中，从而形成机器能够理解的自描述数据。语义技术与物联网的结合形成了语义物联网，而语义物联网的基础是本体。本体是实现异构信息的规范化描述、语义标注、数据共享和知识表示的基础，也是进行知识推理、机器理解、语义搜索和服务组合等智能化操作的有效支撑。

目前已有的物联网领域本体多从网络的组织架构、数据的流通和管理控制过程进行概念抽象，导致本体结构复杂、不易理解而且不适于在实际工程中应用。

发明内容

本发明的目的是通过以下技术方案实现的一种基于商品数据的物联网设备能力本体自构建方法，包括：通过网络爬虫抓取网页数据；基于网页结构特征抽取能力描述信息；对所述能力描述信息进行分词和词性标注；根据词性标注采用支持向量机算法抽取命名实体；计算命名实体中的能力术语间的关系；构建能力本体。

进一步的，所述通过网络爬虫抓取网页数据，包括对冗余信息进行剔除，其中，冗余信息包括：图片以及链接。

进一步的，所述基于网页结构特征抽取能力描述信息包括：根据对应的网页结构特征制定抽取规则；根据所述抽取规则在对应的网页中抽取能力描述信息并进行保存。

更进一步的，所述抽取规则包括：指定能力描述字段在HTML文档中的位置；采用多级关键字检测方法快速定位能力描述字段中的能力描述信息。

更进一步的，所述多级关键字检测方法包括：制定多级关键词；对所述能力描述字段进行第一关键词检测，当未检测到第一关键词时进行第二级关键词检测，依此类推，直到检测到关键词为止。

进一步的，所述采用支持向量机算法抽取命名实体包括：通过特征定义函数对所述命名实体进行抽取；其中，所述特征定义函数为：

Φ＝f(g(t),d(w),p(ta),p(tb))

其中，g(t)为相应词语的词性函数，t为词性，g为分段函数；d(w)为与关键字的字符距离函数，w是关键字集合；p(ta)是前向词词性的概率函数，ta是前向次词性；p(tb)是后向词词性的概率函数，tb是后向次词性。

更进一步的，所述命名实体包括：能力概念和能力属性。

更进一步的，所述的能力本体自构建方法还包括：训练能力概念模型和能力属性模型。

进一步的，所述计算能力术语间的关系包括：采用基于义原的方法计算能力概念间的语义距离，从而建立能力概念间的层次关系；采用聚类算法对能力属性进行聚类分析，从而获得能力属性间的相似程度。

根据上述任一项所述的能力本体自构建方法，所述构建能力本体包括：根据所述网页数据获得所述能力描述信息所对应物体的类型以及型号；将通过相同能力描述信息获得的能力概念、物体的类型以及型号进行综合，从而获得能力本体概念集合；根据所述物体的型号确定所述能力属性的属性值；将同一物体所对应的能力本体概念集合、能力属性及其属性值和能力术语间的关系进行综合，构建出能力本体。

本发明的优点在于：本发明针对物联网中的商品信息，通过抽取商品信息中的能力概念和能力属性，并对其关系进行计算，从而使得构建出的能力本体结构简洁，能力本体自身的规范性更好，更加适合于实际应用；在支持向量机SVM的基础上，分别通过知网义原和聚类分析的方法，建立了能力概念间的层次关系以及其所对应能力间的相似关系，从而使得构建出的能力本体间的关系更加清晰；采用了中文词法分析工具包使得整个能力本体的建立流程为中文更加便于操作。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1示出了本发明的能力本体自构建方法流程图。

附图2示出了一种能力本体构建***实施例的工作流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本文从物联网设备出发，提出了一种从商品数据的术语抽取并构建物联网设备能力本体的方法。因为能力是物联网设备的本质体现，设备所具有的能力决定了设备是什么和可以做什么，因此为物联网数据添加能力语义对于实现物联网设备的语义搜索、深度发现、能力集成和提高物联网智能具有重要意义。而目前无论是物联网领域还是通用领域都缺少对物体能力的规范化表述，本专利可在一定程度上填补物联网领域有关能力本体的空白。本专利提供一种从商品页面和商品文档自动抽取与物联网设备能力相关的术语(包括能力概念及能力属性)及能力关系的方法，即一种构建物联网能力本体的方法。

根据本发明的实施方式，提出一种基于商品数据的物联网设备能力本体自构建方法。本发明针对目标为物联网中的商品信息，包括商品页面和商品文档；通过结合了爬虫***，使得本发明可以做到数据自动采集，并对采集到的数据进行筛选、特征提取、词性标注和分词、命名实体抽取以及能力关系计算进而获得该商品的能力本体。下面将对本发明的具体过程进行说明：

如图1所示，为本发明的能力本体自构建方法流程图。其中，能力本体的自构建方法包括：S1、通过网络爬虫抓取网页数据；S2、基于网页结构特征抽取能力描述信息；S3、对所述能力描述信息进行词性标注和分词；S4、根据词性标注采用支持向量机算法抽取命名实体；S5、计算命名实体中的能力术语间的关系；S6、构建能力本体。

具体的，所述能力本体通过能力概念以及能力属性等能力术语进行描述，其中，所述能力概念为现实中对商品的具体抽象概念，包括：商品的类型和型号；所述能力属性为对该商品所具有的能力的抽象，其具体可以通过属性以及属性值进行描述；能力关系，其也是构建能力本体的意义所在，通过商品能力关系的建立，使得每个商品不再独立，根据该商品所具有的能力，可以容易的获得与其能力有关的其它多种商品，进行形成商品关系网。此外，能力本体构建的更大的意义在于，其提供了对商品的规范化描述的可能，使得机器的可识别性大大提高，并对未来的智能物联网奠定了基础。

所述网络爬虫技术是一种按照规则自动抓取万维网信息的程序或者脚本。其作用是自动的抓取一系列的网页数据并将数据存储在本地。本发明中，根据能力本体的结构组成特点，在数据抓取过程的同时对一些冗余信息进行剔除，如抓取数据中的图片、链接等。数据抓取后，本发明通过根据网页的结构特征制定相应的抽取规则的方法对能力描述信息进行抽取，并对抽取后的能力描述信息进行保存；其中，所述抽取规则包括：根据模板结构制定抽取规则，指定能力描述字段在HTML文档中的位置；以及采用多级关键字检测方法快速定位能力描述字段中的能力描述信息。所述快速定位方法主要针对商品文档。由于商品文档一般较长，包含了大量的文本信息；则若对全部文本信息进行自然语言处理会耗费大量的时间，因此需要通过多级关键字检测方法快速定感兴趣的区域段落，以降低后续流程的工作量。

更具体的，采用基于多级关键字检测的定位方法，主要是针对文档目录进行关键字检测，抽取与设备能力相关的章节。可选的，将关键字设为两个等级，包括一级关键字和二级关键字；在快速定位的过程中，首先通过对一级关键字的检测进行定位，若未检测到一级关键字再采用二级关键字进行检测定位；其中一级关键字如“产品简介”、“产品说明”和“产品功能”等；二级关键字如“功能”、“能力”、“数据”、“管理”、“控制”、“介绍”、“简介”和“说明”等。在通过快速定位获得具体的能力描述信息后，通过自然语言处理方法，包括，分词和词性标注，对能力描述信息进行处理，用于为接下来的能力本体中能力术语的抽取做准备。

具体的，所述分词是负责将连续的语句切割成单独的词语；词性标是负责为每个词赋予一个词性类别，如名词、动词、形容词等，同时也会对标点符号、数字和字母进行标记。对于分词和词性标注本发明中采用了中文词法分析工具THULAC(THU LexicalAnalyzer for Chinese)，即清华大学词法分析。在分词和词性标注后，跟据词性标注采用支持向量机算法抽取命名实体，具体过程如下：

所述命名实体抽取又称为命名实体识别。其具体过程为采用SVM(支持向量机)算法完成对能力相关术语的抽取，其中，相关的能力术语主要包括两类：能力概念和能力属性。于是更具体的，针对这两类能力术语分别训练对应的分类模型，即能力概念模型和能力属性模型，进而实现对能力术语的检测与识别。其中用于分类的特征函数为：

Φ＝f(g(t),d(w),p(ta),p(tb))。

其中，g(t)为相应词语的词性函数，t为词性，g为分段函数；d(w)为与关键字的字符距离函数，w是关键字集合，如“支持”、“可以”、“能够”、“满足”、“要求”、“需求”、“拥有”、“具有”和“具备”等；p(ta)是前向词词性的概率函数，ta是前向次词性；p(tb)是后向词词性的概率函数，tb是后向次词性。所述特征函数的获取过程为：

首先，通过对一定量的数据进行人工标注，构建训练样本集，进而通过训练样本进行训练得到特征函数模型Φ；然后，根据前期应用过程中采集到的新数据，利用特征函数模型对其分类，并将识别出的能力概念和能力属性分别进行保存；再然后，通过查看保存的能力概念和能力属性对分类函数模型的分类结果进行评估，当分类准确度定达到要求后即完成对特征函数模型的训练Φ，在此过程中，分别保存的能力概念和能力属性即为在训练过程中同时获得的能力概念模型和能力属性模型。接下来进行能力术语间的关系计算：

关系计算采用基于知网义原的方法计算能力术语间的语义距离，并结合聚类算法对能力术语进行聚类，从而建立能力术语间的层次关系和相似关系。其中，其中，所述知网HowNet是一个以)汉语和英语的词语所代表的概念为描述对象，其具体为揭示概念之间以及概念所具有的属性之间的关系为基本内容的知识库。所述义原是由知网HowNet引入的概念，即为最基本的、不易于再分割的意义的最小单位。所有的概念都可以分解成各种各样的义原，并用一个有限的义原集合来描述无限的概念、概念之间的关系以及属性。为达到描述的一致性，知网设计了一种描述语言KDML(Knowledge Dictionary Mark-up Language)知识词典标记语言，用来对描述的复杂性和一致性进行规范。如，采用KDML对“救灾”一词的定义是DEF＝rescue|救助，StateIni＝unfortunate|不幸。

所述聚类算法为，设两个汉语词语为W1和W2，当W1有n个义项(概念)：S11，S12，…，S1n，W2有m个义项(概念)：S21，S22，…，S2m时，则W1和W2两个词语的相似度为各个义项(概念)间的相似度的最大值，其公式表示为：

Sim(W1,W2)＝Max_{i＝1…n,j＝1…m}Sim(S1i,S2j)。

其中，S1_i表示词语W1中的第i个义项，S2_j表示词语W2中的第i个义项。

两个概念之间的语义相似度为：

其中，βi(1≤i≤4)是可调节的参数，且β1+β2+β3+β4＝1，β1≥β2≥β3≥β4，Simi为义原相似度。两个义原的相似度通过计算其二者在义原树状层次结构路中径长度进行计算。通过计算能力术语两两之间的语义相似度，以此为特征对能力术语进行分类，再依据不同的类别构建能力术语的层次关系。语义距离较近的能力术语间为相似关系。接下来，根据上述获得的数据，对能力本体进行构建，包括：

根据所述网页数据获得所述能力描述信息所对应物体的类型以及型号；将通过相同能力描述信息获得的能力概念、物体的类型以及型号进行综合，从而获得能力本体概念集合；根据所述物体的型号确定所述能力属性的属性值；将同一物体所对应的能力本体概念集合、能力属性及其属性值和能力术语间的关系进行综合，构建出能力本体。同一物体所对应的能力本体概念集合、能力属性及其属性值和能力术语间的关系进行综合，构建出能力本体。此外，在整个的能力本体构建过程中本发明还增加了机器学习方法，用于对包括抽取规则、分词、词性标注以及能力本体的构建过程进行学习，从而实现了能力本体的自动构建。

实施例一(能力本体自动构建***)

如图2所示，为一种能力本体构建***实施例的工作流程图。其中，所述能力本体自动构建***采用了本发明的能力本体构建方法。具体的，所述能力本体自动构建***包括：网络爬虫单元、信息抽取单元、自然语言处理单元、实体抽取单元以及分类单元。能力本体自动构建***的工作过程如下：

通过网络爬虫单元获取网络数据，并对网络数据进行初步的筛选，去数据中的图片以及链接；接下来通过信息抽取单元抽取其中的能力描述信息，其抽取过程采用了本发明中能力信息的抽取规则，即多级关键字检测的快速定位方法，获得的能力信息交由自然语言处理模块进行进一步的处理；自然语言处理模块对接收到的能力信息进行分词和词性标注后，发送给实体抽取单元；实体抽取单元根据分词以及词性标注，获得命名实体；其中，获得的命名实体包括：能力概念和能力属性；接下来通过分类单元对能力概念以及能力属性进行分类，进而计算能力概念间的层次关系以及能力属性间的相似关系；最后，对获得的能力概念、物体的类型以及型号、能力属性及其属性值和能力术语间的关系进行综合，构建出能力本体。在上述过程中，本***中还引入了机器学习方法，用于对包括抽取规则、分词、词性标注以及能力本体的构建过程进行学习，从而实现了能力本体的自动构建。

实施例二(分词和词性标注示例)

对于下面一段话“海康威视系列DS-65VM产品是专为视频监控控制中心设计的一款高性能的专业会议电视***多点控制单元(MCU)设备。”分词后的结果为：“海康/威视/系列/DS/-/65/VM/产品/是/专/为/视频/监控/控制/中心/设计/的/一/款/高性能/的/专业/会议/电视/***/多/点/控制/单元/(/MCU/)/设备”。词性标注的结果为：海康_nz威视_v系列_n DS_x-_w 65_m VM_q产品_n是_v专_d为_p视频_n监控_v控制_v中心_n设计_v的_u一_m款_q高性能_n的_u专业_n会议_n电视_n***_n多_a点_q控制_v单元_n(_w MCU_x)_w设备_n。

其中，n/名词、np/人名、ns/地名、ni/机构名、nz/其它转名、m/数词、q/量词、mq/数量词、t/时间词、f/方位词、s/处所词、v/动词、a/形容词、d/副词、h/前接成分、k/后接成分、i/习语、j/简称、r/代词、c/连词。p/介词、u/助词、y/语气助词、e/感叹词、o/拟声词、f/语素、m/标点、w/括号以及c/其它。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于商品数据的物联网设备能力本体自构建方法，其特征在于，包括：

通过网络爬虫抓取网页数据；

基于网页结构特征抽取能力描述信息；

对所述能力描述信息进行分词和词性标注；

根据词性标注采用支持向量机算法抽取命名实体；

计算命名实体中的能力术语间的关系；

构建能力本体。

2.根据权利要求1所述的能力本体自构建方法，其特征在于，所述通过网络爬虫抓取网页数据，包括对冗余信息进行剔除，其中，冗余信息包括：图片以及链接。

3.根据权利要求1所述的能力本体自构建方法，其特征在于，所述基于网页结构特征抽取能力描述信息包括：

根据对应的网页结构特征制定抽取规则；

根据所述抽取规则在对应的网页中抽取能力描述信息并进行保存。

4.根据权利要求3所述的能力本体自构建方法，其特征在于，所述抽取规则包括：

指定能力描述字段在HTML文档中的位置；

采用多级关键字检测方法快速定位能力描述字段中的能力描述信息。

5.根据权利要求4所述的能力本体自构建方法，其特征在于，所述多级关键字检测方法包括：

制定多级关键词；

对所述能力描述字段进行第一关键词检测，当未检测到第一关键词时进行第二级关键词检测，依此类推，直到检测到关键词为止。

6.根据权利要求1所述的能力本体自构建方法，其特征在于，所述采用支持向量机算法抽取命名实体包括：通过特征定义函数对所述命名实体进行抽取；

其中，所述特征定义函数为：

Φ＝f(g(t),d(w),p(ta),p(tb))

7.根据权利要求6所述的能力本体自构建方法，其特征在于，所述命名实体包括：能力概念和能力属性。

8.根据权利要求7所述的能力本体自构建方法，其特征在于，所述能力本体自构建方法还包括：训练能力概念模型和能力属性模型。

9.根据权利要求1所述的能力本体自构建方法，其特征在于，所述计算命名实体中的能力术语间的关系包括：

采用基于义原的方法计算能力概念间的语义距离，从而建立能力概念间的层次关系；

采用聚类算法对能力属性进行聚类分析，从而获得能力属性间的相似程度。

10.根据权利要求1-9任一项所述的能力本体自构建方法，其特征在于，所述构建能力本体包括：

根据所述网页数据获得所述能力描述信息所对应物体的类型以及型号；

将通过相同能力描述信息获得的能力概念、物体的类型以及型号进行综合，从而获得能力本体概念集合；

根据所述物体的型号确定所述能力属性的属性值；

将同一物体所对应的能力本体概念集合、能力属性及其属性值和能力术语间的关系进行综合，构建出能力本体。