CN109359299A - 一种基于商品数据的物联网设备能力本体自构建方法 - Google Patents

一种基于商品数据的物联网设备能力本体自构建方法 Download PDF

Info

Publication number
CN109359299A
CN109359299A CN201811136995.9A CN201811136995A CN109359299A CN 109359299 A CN109359299 A CN 109359299A CN 201811136995 A CN201811136995 A CN 201811136995A CN 109359299 A CN109359299 A CN 109359299A
Authority
CN
China
Prior art keywords
ability
ontology
construction method
internet
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811136995.9A
Other languages
English (en)
Inventor
马超
刘弋峰
谢海永
潘博文
李赟
田承东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN201811136995.9A priority Critical patent/CN109359299A/zh
Publication of CN109359299A publication Critical patent/CN109359299A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于物联网技术领域,具体为一种基于商品数据的物联网设备能力本体自构建方法,其中构建方法包括:通过网络爬虫抓取网页数据;基于网页结构特征抽取能力描述信息;对所述能力描述信息进行分词和词性标注;根据词性标注采用支持向量机算法抽取命名实体;计算命名实体中的能力术语间的关系;构建能力本体。本发明的优点在于:针对物联网中的商品信息,从而使得构建出的能力本体结构简洁、自身的规范性更好,更加适合于实际应用;在支持向量机SVM的基础上,分别通过知网义原和聚类分析的方法,建立了能力概念间的层次关系以及其所对应能力间的相似关系;采用了中文词法分析工具包使得整个能力本体的建立流程为中文更加便于操作。

Description

一种基于商品数据的物联网设备能力本体自构建方法
技术领域
本发明属于物联网技术领域,具体为一种基于商品数据的物联网设备能力本体自构建方法。
背景技术
近年来随着物联网技术的飞速发展,物联网设备的种类越来越丰富,感知和控制能力从广度和深度都达到了一个新的层次,为物联网的智能化提供了条件,同时也提出了挑战。从信息化和智能化角度看,物联网存在的问题主要表现在以下三个方面:
一是大量异构信息的存在,阻碍了物联网设备的互联互通和数据的共享。长期以来,各国对物联网的理解不一致,语言不一致,在研究过程中对事物的标识方式也不能统一;各个行业对设备的描述方式不同,对同类型数据的表示方式不统一。二是数据和信息无法被物联网中的使用主体(计算机、智能设备等)理解,数据的自动处理程度受限。早在2003年,Vagan Terziyan就已经提出当前物联网中的用户已经不仅仅局限于人类,智能设备已经作为新的“用户”出现在物联网中,而数据和信息无法被智能设备理解,也就无法实现自动处理和设备间的协作。同样,由于计算机无法理解物联网中的数据,导致物联网管理平台和分析控制***只能进行简单的数据处理,严重影响了数据的有效利用和处理速率。三是对物联网智能化的需求与期望日益提升,而以上两点成为了阻碍物联网实现更高智能的关键因素。实现物联网的智能化,不仅需要设备具备较强的信息处理能力,也要求设备能够正确的理解和使用信息。
语义技术逐步运用于资源描述、物联网数据共享以及信息的整合过程中,从而形成机器能够理解的自描述数据。语义技术与物联网的结合形成了语义物联网,而语义物联网的基础是本体。本体是实现异构信息的规范化描述、语义标注、数据共享和知识表示的基础,也是进行知识推理、机器理解、语义搜索和服务组合等智能化操作的有效支撑。
目前已有的物联网领域本体多从网络的组织架构、数据的流通和管理控制过程进行概念抽象,导致本体结构复杂、不易理解而且不适于在实际工程中应用。
发明内容
本发明的目的是通过以下技术方案实现的一种基于商品数据的物联网设备能力本体自构建方法,包括:通过网络爬虫抓取网页数据;基于网页结构特征抽取能力描述信息;对所述能力描述信息进行分词和词性标注;根据词性标注采用支持向量机算法抽取命名实体;计算命名实体中的能力术语间的关系;构建能力本体。
进一步的,所述通过网络爬虫抓取网页数据,包括对冗余信息进行剔除,其中,冗余信息包括:图片以及链接。
进一步的,所述基于网页结构特征抽取能力描述信息包括:根据对应的网页结构特征制定抽取规则;根据所述抽取规则在对应的网页中抽取能力描述信息并进行保存。
更进一步的,所述抽取规则包括:指定能力描述字段在HTML文档中的位置;采用多级关键字检测方法快速定位能力描述字段中的能力描述信息。
更进一步的,所述多级关键字检测方法包括:制定多级关键词;对所述能力描述字段进行第一关键词检测,当未检测到第一关键词时进行第二级关键词检测,依此类推,直到检测到关键词为止。
进一步的,所述采用支持向量机算法抽取命名实体包括:通过特征定义函数对所述命名实体进行抽取;其中,所述特征定义函数为:
Φ=f(g(t),d(w),p(ta),p(tb))
其中,g(t)为相应词语的词性函数,t为词性,g为分段函数;d(w)为与关键字的字符距离函数,w是关键字集合;p(ta)是前向词词性的概率函数,ta是前向次词性;p(tb)是后向词词性的概率函数,tb是后向次词性。
更进一步的,所述命名实体包括:能力概念和能力属性。
更进一步的,所述的能力本体自构建方法还包括:训练能力概念模型和能力属性模型。
进一步的,所述计算能力术语间的关系包括:采用基于义原的方法计算能力概念间的语义距离,从而建立能力概念间的层次关系;采用聚类算法对能力属性进行聚类分析,从而获得能力属性间的相似程度。
根据上述任一项所述的能力本体自构建方法,所述构建能力本体包括:根据所述网页数据获得所述能力描述信息所对应物体的类型以及型号;将通过相同能力描述信息获得的能力概念、物体的类型以及型号进行综合,从而获得能力本体概念集合;根据所述物体的型号确定所述能力属性的属性值;将同一物体所对应的能力本体概念集合、能力属性及其属性值和能力术语间的关系进行综合,构建出能力本体。
本发明的优点在于:本发明针对物联网中的商品信息,通过抽取商品信息中的能力概念和能力属性,并对其关系进行计算,从而使得构建出的能力本体结构简洁,能力本体自身的规范性更好,更加适合于实际应用;在支持向量机SVM的基础上,分别通过知网义原和聚类分析的方法,建立了能力概念间的层次关系以及其所对应能力间的相似关系,从而使得构建出的能力本体间的关系更加清晰;采用了中文词法分析工具包使得整个能力本体的建立流程为中文更加便于操作。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了本发明的能力本体自构建方法流程图。
附图2示出了一种能力本体构建***实施例的工作流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本文从物联网设备出发,提出了一种从商品数据的术语抽取并构建物联网设备能力本体的方法。因为能力是物联网设备的本质体现,设备所具有的能力决定了设备是什么和可以做什么,因此为物联网数据添加能力语义对于实现物联网设备的语义搜索、深度发现、能力集成和提高物联网智能具有重要意义。而目前无论是物联网领域还是通用领域都缺少对物体能力的规范化表述,本专利可在一定程度上填补物联网领域有关能力本体的空白。本专利提供一种从商品页面和商品文档自动抽取与物联网设备能力相关的术语(包括能力概念及能力属性)及能力关系的方法,即一种构建物联网能力本体的方法。
根据本发明的实施方式,提出一种基于商品数据的物联网设备能力本体自构建方法。本发明针对目标为物联网中的商品信息,包括商品页面和商品文档;通过结合了爬虫***,使得本发明可以做到数据自动采集,并对采集到的数据进行筛选、特征提取、词性标注和分词、命名实体抽取以及能力关系计算进而获得该商品的能力本体。下面将对本发明的具体过程进行说明:
如图1所示,为本发明的能力本体自构建方法流程图。其中,能力本体的自构建方法包括:S1、通过网络爬虫抓取网页数据;S2、基于网页结构特征抽取能力描述信息;S3、对所述能力描述信息进行词性标注和分词;S4、根据词性标注采用支持向量机算法抽取命名实体;S5、计算命名实体中的能力术语间的关系;S6、构建能力本体。
具体的,所述能力本体通过能力概念以及能力属性等能力术语进行描述,其中,所述能力概念为现实中对商品的具体抽象概念,包括:商品的类型和型号;所述能力属性为对该商品所具有的能力的抽象,其具体可以通过属性以及属性值进行描述;能力关系,其也是构建能力本体的意义所在,通过商品能力关系的建立,使得每个商品不再独立,根据该商品所具有的能力,可以容易的获得与其能力有关的其它多种商品,进行形成商品关系网。此外,能力本体构建的更大的意义在于,其提供了对商品的规范化描述的可能,使得机器的可识别性大大提高,并对未来的智能物联网奠定了基础。
所述网络爬虫技术是一种按照规则自动抓取万维网信息的程序或者脚本。其作用是自动的抓取一系列的网页数据并将数据存储在本地。本发明中,根据能力本体的结构组成特点,在数据抓取过程的同时对一些冗余信息进行剔除,如抓取数据中的图片、链接等。数据抓取后,本发明通过根据网页的结构特征制定相应的抽取规则的方法对能力描述信息进行抽取,并对抽取后的能力描述信息进行保存;其中,所述抽取规则包括:根据模板结构制定抽取规则,指定能力描述字段在HTML文档中的位置;以及采用多级关键字检测方法快速定位能力描述字段中的能力描述信息。所述快速定位方法主要针对商品文档。由于商品文档一般较长,包含了大量的文本信息;则若对全部文本信息进行自然语言处理会耗费大量的时间,因此需要通过多级关键字检测方法快速定感兴趣的区域段落,以降低后续流程的工作量。
更具体的,采用基于多级关键字检测的定位方法,主要是针对文档目录进行关键字检测,抽取与设备能力相关的章节。可选的,将关键字设为两个等级,包括一级关键字和二级关键字;在快速定位的过程中,首先通过对一级关键字的检测进行定位,若未检测到一级关键字再采用二级关键字进行检测定位;其中一级关键字如“产品简介”、“产品说明”和“产品功能”等;二级关键字如“功能”、“能力”、“数据”、“管理”、“控制”、“介绍”、“简介”和“说明”等。在通过快速定位获得具体的能力描述信息后,通过自然语言处理方法,包括,分词和词性标注,对能力描述信息进行处理,用于为接下来的能力本体中能力术语的抽取做准备。
具体的,所述分词是负责将连续的语句切割成单独的词语;词性标是负责为每个词赋予一个词性类别,如名词、动词、形容词等,同时也会对标点符号、数字和字母进行标记。对于分词和词性标注本发明中采用了中文词法分析工具THULAC(THU LexicalAnalyzer for Chinese),即清华大学词法分析。在分词和词性标注后,跟据词性标注采用支持向量机算法抽取命名实体,具体过程如下:
所述命名实体抽取又称为命名实体识别。其具体过程为采用SVM(支持向量机)算法完成对能力相关术语的抽取,其中,相关的能力术语主要包括两类:能力概念和能力属性。于是更具体的,针对这两类能力术语分别训练对应的分类模型,即能力概念模型和能力属性模型,进而实现对能力术语的检测与识别。其中用于分类的特征函数为:
Φ=f(g(t),d(w),p(ta),p(tb))。
其中,g(t)为相应词语的词性函数,t为词性,g为分段函数;d(w)为与关键字的字符距离函数,w是关键字集合,如“支持”、“可以”、“能够”、“满足”、“要求”、“需求”、“拥有”、“具有”和“具备”等;p(ta)是前向词词性的概率函数,ta是前向次词性;p(tb)是后向词词性的概率函数,tb是后向次词性。所述特征函数的获取过程为:
首先,通过对一定量的数据进行人工标注,构建训练样本集,进而通过训练样本进行训练得到特征函数模型Φ;然后,根据前期应用过程中采集到的新数据,利用特征函数模型对其分类,并将识别出的能力概念和能力属性分别进行保存;再然后,通过查看保存的能力概念和能力属性对分类函数模型的分类结果进行评估,当分类准确度定达到要求后即完成对特征函数模型的训练Φ,在此过程中,分别保存的能力概念和能力属性即为在训练过程中同时获得的能力概念模型和能力属性模型。接下来进行能力术语间的关系计算:
关系计算采用基于知网义原的方法计算能力术语间的语义距离,并结合聚类算法对能力术语进行聚类,从而建立能力术语间的层次关系和相似关系。其中,其中,所述知网HowNet是一个以)汉语和英语的词语所代表的概念为描述对象,其具体为揭示概念之间以及概念所具有的属性之间的关系为基本内容的知识库。所述义原是由知网HowNet引入的概念,即为最基本的、不易于再分割的意义的最小单位。所有的概念都可以分解成各种各样的义原,并用一个有限的义原集合来描述无限的概念、概念之间的关系以及属性。为达到描述的一致性,知网设计了一种描述语言KDML(Knowledge Dictionary Mark-up Language)知识词典标记语言,用来对描述的复杂性和一致性进行规范。如,采用KDML对“救灾”一词的定义是DEF=rescue|救助,StateIni=unfortunate|不幸。
所述聚类算法为,设两个汉语词语为W1和W2,当W1有n个义项(概念):S11,S12,…,S1n,W2有m个义项(概念):S21,S22,…,S2m时,则W1和W2两个词语的相似度为各个义项(概念)间的相似度的最大值,其公式表示为:
Sim(W1,W2)=Maxi=1…n,j=1…mSim(S1i,S2j)。
其中,S1i表示词语W1中的第i个义项,S2j表示词语W2中的第i个义项。
两个概念之间的语义相似度为:
其中,βi(1≤i≤4)是可调节的参数,且β1+β2+β3+β4=1,β1≥β2≥β3≥β4,Simi为义原相似度。两个义原的相似度通过计算其二者在义原树状层次结构路中径长度进行计算。通过计算能力术语两两之间的语义相似度,以此为特征对能力术语进行分类,再依据不同的类别构建能力术语的层次关系。语义距离较近的能力术语间为相似关系。接下来,根据上述获得的数据,对能力本体进行构建,包括:
根据所述网页数据获得所述能力描述信息所对应物体的类型以及型号;将通过相同能力描述信息获得的能力概念、物体的类型以及型号进行综合,从而获得能力本体概念集合;根据所述物体的型号确定所述能力属性的属性值;将同一物体所对应的能力本体概念集合、能力属性及其属性值和能力术语间的关系进行综合,构建出能力本体。同一物体所对应的能力本体概念集合、能力属性及其属性值和能力术语间的关系进行综合,构建出能力本体。此外,在整个的能力本体构建过程中本发明还增加了机器学习方法,用于对包括抽取规则、分词、词性标注以及能力本体的构建过程进行学习,从而实现了能力本体的自动构建。
实施例一(能力本体自动构建***)
如图2所示,为一种能力本体构建***实施例的工作流程图。其中,所述能力本体自动构建***采用了本发明的能力本体构建方法。具体的,所述能力本体自动构建***包括:网络爬虫单元、信息抽取单元、自然语言处理单元、实体抽取单元以及分类单元。能力本体自动构建***的工作过程如下:
通过网络爬虫单元获取网络数据,并对网络数据进行初步的筛选,去数据中的图片以及链接;接下来通过信息抽取单元抽取其中的能力描述信息,其抽取过程采用了本发明中能力信息的抽取规则,即多级关键字检测的快速定位方法,获得的能力信息交由自然语言处理模块进行进一步的处理;自然语言处理模块对接收到的能力信息进行分词和词性标注后,发送给实体抽取单元;实体抽取单元根据分词以及词性标注,获得命名实体;其中,获得的命名实体包括:能力概念和能力属性;接下来通过分类单元对能力概念以及能力属性进行分类,进而计算能力概念间的层次关系以及能力属性间的相似关系;最后,对获得的能力概念、物体的类型以及型号、能力属性及其属性值和能力术语间的关系进行综合,构建出能力本体。在上述过程中,本***中还引入了机器学习方法,用于对包括抽取规则、分词、词性标注以及能力本体的构建过程进行学习,从而实现了能力本体的自动构建。
实施例二(分词和词性标注示例)
对于下面一段话“海康威视系列DS-65VM产品是专为视频监控控制中心设计的一款高性能的专业会议电视***多点控制单元(MCU)设备。”分词后的结果为:“海康/威视/系列/DS/-/65/VM/产品/是/专/为/视频/监控/控制/中心/设计/的/一/款/高性能/的/专业/会议/电视/***/多/点/控制/单元/(/MCU/)/设备”。词性标注的结果为:海康_nz威视_v系列_n DS_x-_w 65_m VM_q产品_n是_v专_d为_p视频_n监控_v控制_v中心_n设计_v的_u一_m款_q高性能_n的_u专业_n会议_n电视_n***_n多_a点_q控制_v单元_n(_w MCU_x)_w设备_n。
其中,n/名词、np/人名、ns/地名、ni/机构名、nz/其它转名、m/数词、q/量词、mq/数量词、t/时间词、f/方位词、s/处所词、v/动词、a/形容词、d/副词、h/前接成分、k/后接成分、i/习语、j/简称、r/代词、c/连词。p/介词、u/助词、y/语气助词、e/感叹词、o/拟声词、f/语素、m/标点、w/括号以及c/其它。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于商品数据的物联网设备能力本体自构建方法,其特征在于,包括:
通过网络爬虫抓取网页数据;
基于网页结构特征抽取能力描述信息;
对所述能力描述信息进行分词和词性标注;
根据词性标注采用支持向量机算法抽取命名实体;
计算命名实体中的能力术语间的关系;
构建能力本体。
2.根据权利要求1所述的能力本体自构建方法,其特征在于,所述通过网络爬虫抓取网页数据,包括对冗余信息进行剔除,其中,冗余信息包括:图片以及链接。
3.根据权利要求1所述的能力本体自构建方法,其特征在于,所述基于网页结构特征抽取能力描述信息包括:
根据对应的网页结构特征制定抽取规则;
根据所述抽取规则在对应的网页中抽取能力描述信息并进行保存。
4.根据权利要求3所述的能力本体自构建方法,其特征在于,所述抽取规则包括:
指定能力描述字段在HTML文档中的位置;
采用多级关键字检测方法快速定位能力描述字段中的能力描述信息。
5.根据权利要求4所述的能力本体自构建方法,其特征在于,所述多级关键字检测方法包括:
制定多级关键词;
对所述能力描述字段进行第一关键词检测,当未检测到第一关键词时进行第二级关键词检测,依此类推,直到检测到关键词为止。
6.根据权利要求1所述的能力本体自构建方法,其特征在于,所述采用支持向量机算法抽取命名实体包括:通过特征定义函数对所述命名实体进行抽取;
其中,所述特征定义函数为:
Φ=f(g(t),d(w),p(ta),p(tb))
其中,g(t)为相应词语的词性函数,t为词性,g为分段函数;d(w)为与关键字的字符距离函数,w是关键字集合;p(ta)是前向词词性的概率函数,ta是前向次词性;p(tb)是后向词词性的概率函数,tb是后向次词性。
7.根据权利要求6所述的能力本体自构建方法,其特征在于,所述命名实体包括:能力概念和能力属性。
8.根据权利要求7所述的能力本体自构建方法,其特征在于,所述能力本体自构建方法还包括:训练能力概念模型和能力属性模型。
9.根据权利要求1所述的能力本体自构建方法,其特征在于,所述计算命名实体中的能力术语间的关系包括:
采用基于义原的方法计算能力概念间的语义距离,从而建立能力概念间的层次关系;
采用聚类算法对能力属性进行聚类分析,从而获得能力属性间的相似程度。
10.根据权利要求1-9任一项所述的能力本体自构建方法,其特征在于,所述构建能力本体包括:
根据所述网页数据获得所述能力描述信息所对应物体的类型以及型号;
将通过相同能力描述信息获得的能力概念、物体的类型以及型号进行综合,从而获得能力本体概念集合;
根据所述物体的型号确定所述能力属性的属性值;
将同一物体所对应的能力本体概念集合、能力属性及其属性值和能力术语间的关系进行综合,构建出能力本体。
CN201811136995.9A 2018-09-28 2018-09-28 一种基于商品数据的物联网设备能力本体自构建方法 Pending CN109359299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811136995.9A CN109359299A (zh) 2018-09-28 2018-09-28 一种基于商品数据的物联网设备能力本体自构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811136995.9A CN109359299A (zh) 2018-09-28 2018-09-28 一种基于商品数据的物联网设备能力本体自构建方法

Publications (1)

Publication Number Publication Date
CN109359299A true CN109359299A (zh) 2019-02-19

Family

ID=65348087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811136995.9A Pending CN109359299A (zh) 2018-09-28 2018-09-28 一种基于商品数据的物联网设备能力本体自构建方法

Country Status (1)

Country Link
CN (1) CN109359299A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555113A (zh) * 2019-09-02 2019-12-10 西北工业大学 一种基于描述文本的云服务本体构建方法
CN110705290A (zh) * 2019-09-29 2020-01-17 新华三信息安全技术有限公司 一种网页分类方法及装置
CN114693280A (zh) * 2022-05-31 2022-07-01 山东国盾网信息科技有限公司 一种基于电子签名技术的数字化协同办公平台
EP4152172A1 (en) * 2021-09-15 2023-03-22 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and recording medium

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663025A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种违规在线商品检测方法
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测***及其工作方法
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN106372226A (zh) * 2016-09-07 2017-02-01 知识产权出版社有限责任公司 信息检索装置及方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
CN108021718A (zh) * 2017-12-29 2018-05-11 中国电子科技集团公司信息科学研究院 物联网能力知识图谱及其构建方法
CN108415900A (zh) * 2018-02-05 2018-08-17 中国科学院信息工程研究所 一种基于多级共现关系词图的可视化文本信息发现方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663025A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种违规在线商品检测方法
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测***及其工作方法
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN106372226A (zh) * 2016-09-07 2017-02-01 知识产权出版社有限责任公司 信息检索装置及方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
CN108021718A (zh) * 2017-12-29 2018-05-11 中国电子科技集团公司信息科学研究院 物联网能力知识图谱及其构建方法
CN108415900A (zh) * 2018-02-05 2018-08-17 中国科学院信息工程研究所 一种基于多级共现关系词图的可视化文本信息发现方法及***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555113A (zh) * 2019-09-02 2019-12-10 西北工业大学 一种基于描述文本的云服务本体构建方法
CN110555113B (zh) * 2019-09-02 2023-03-24 西北工业大学 一种基于描述文本的云服务本体构建方法
CN110705290A (zh) * 2019-09-29 2020-01-17 新华三信息安全技术有限公司 一种网页分类方法及装置
CN110705290B (zh) * 2019-09-29 2023-06-23 新华三信息安全技术有限公司 一种网页分类方法及装置
EP4152172A1 (en) * 2021-09-15 2023-03-22 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and recording medium
CN114693280A (zh) * 2022-05-31 2022-07-01 山东国盾网信息科技有限公司 一种基于电子签名技术的数字化协同办公平台
CN114693280B (zh) * 2022-05-31 2022-09-13 山东国盾网信息科技有限公司 一种基于电子签名技术的数字化协同办公平台

Similar Documents

Publication Publication Date Title
CN110516067B (zh) 基于话题检测的舆情监控方法、***及存储介质
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
Li et al. Comparison of word embeddings and sentence encodings as generalized representations for crisis tweet classification tasks
CN107402913B (zh) 先行词的确定方法和装置
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN108763333A (zh) 一种基于社会媒体的事件图谱构建方法
CN109359299A (zh) 一种基于商品数据的物联网设备能力本体自构建方法
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN106951438A (zh) 一种面向开放域的事件抽取***及方法
CN112148832B (zh) 一种基于标签感知的双重自注意力网络的事件检测方法
CN106372061A (zh) 基于语义的短文本相似度计算方法
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN112559684A (zh) 一种关键词提取及信息检索方法
WO2017198031A1 (zh) 解析语义的方法和装置
Gokul et al. Sentence similarity detection in Malayalam language using cosine similarity
WO2023108991A1 (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
Nandi et al. Bangla news recommendation using doc2vec
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习***及方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190219

RJ01 Rejection of invention patent application after publication