CN110209839B - 农业知识图谱构建装置、方法及计算机可读存储介质 - Google Patents

农业知识图谱构建装置、方法及计算机可读存储介质 Download PDF

Info

Publication number
CN110209839B
CN110209839B CN201910528268.5A CN201910528268A CN110209839B CN 110209839 B CN110209839 B CN 110209839B CN 201910528268 A CN201910528268 A CN 201910528268A CN 110209839 B CN110209839 B CN 110209839B
Authority
CN
China
Prior art keywords
agricultural
entity
corpus
entities
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910528268.5A
Other languages
English (en)
Other versions
CN110209839A (zh
Inventor
吴良顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Original Assignee
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Erzhi Lian Wuhan Research Institute Co Ltd filed Critical Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority to CN201910528268.5A priority Critical patent/CN110209839B/zh
Publication of CN110209839A publication Critical patent/CN110209839A/zh
Application granted granted Critical
Publication of CN110209839B publication Critical patent/CN110209839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种农业知识图谱构建方法,包括:获取一目标区域的农业领域数据,并基于获取的农业领域数据构建语料库;对所述语料库中的语料进行分词与词性标注处理,以识别出多个实体概念;根据预设筛选规则对识别出的实体概念进行筛选得到多个农业实体;对所述语料库中的语料进行解析与关系提取,得到多个所述农业实体之间的关联关系;及根据每一所述农业实体以及每一所述农业实体之间的关联关系,建立农业知识图谱。本发明还提供一种农业知识图谱构建装置及计算机可读存储介质。上述农业知识图谱构建装置、方法及计算机可读存储介质,可实现针对农业领域构建农业知识图谱,提升农业领域数据管理效率及数据使用的便捷性。

Description

农业知识图谱构建装置、方法及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种农业知识图谱构建装置、方法及计算机可读存储介质。
背景技术
知识图谱具有强大的数据描述能力,为智能化信息应用提供了技术基础,其通过推理实现概念检索,同时可以以图形化的方式向用户呈现结构化知识。知识图谱在多个领域均有应用,比如医疗、金融、教育、投资等具有关系存在的行业。但目前还尚未有成熟的农业知识图谱构建方式。
发明内容
有鉴于此,有必要提供一种农业知识图谱构建装置、方法及计算机可读存储介质,其可实现针对农业领域构建农业知识图谱,提升农业领域数据管理效率及数据使用的便捷性。
本发明一实施方式提供一种农业知识图谱构建方法,所述方法包括:获取一目标区域的农业领域数据,并基于获取的农业领域数据构建语料库;对所述语料库中的语料进行分词与词性标注处理,以识别出多个实体概念;根据预设筛选规则对识别出的实体概念进行筛选得到多个农业实体;对所述语料库中的语料进行解析与关系提取,得到多个所述农业实体之间的关联关系;根据每一所述农业实体以及每一所述农业实体之间的关联关系,建立农业知识图谱;从网络上爬取得到每一所述农业实体的百科信息;基于预设提取规则对爬取得到的百科页面内容进行提取,并将提取得到的内容添加至所述语料库和/或所述农业知识图谱;对爬取得到的百科页面内容进行相似度分析,得到每一所述农业实体的分类信息;及将每一所述农业实体的分类信息添加至所述农业知识图谱;
其中,所述对爬取得到的百科页面内容进行相似度分析的步骤包括:提取每一所述百科页面内容中的多个指定特征;利用KNN算法计算得到任意两个百科页面内容之间的每一特征组的相似度;及对计算得到的多个特征组的相似度进行加权运算得到所述任意两个百科页面内容的综合相似度。
优选地,所述农业领域数据包括非结构化的农业领域数据及半结构化的农业领域数据。
优选地,所述对所述语料库中的语料进行分词与词性标注处理,以识别出多个实体概念的步骤包括:
利用预设词法分析工具对所述语料库中的语料进行分词与词性标注处理;及
对词性标注的结果进行命名实体识别,以识别出多个实体概念。
优选地,所述对所述语料库中的语料进行解析与关系提取,得到多个所述农业实体之间的关联关系:
对所述语料库中的语料进行解析得到词法信息、句法信息及语义信息;及
将所述解析得到的词法信息、句法信息及语义信息输入至预先训练的关系提取模型,得到多个所述农业实体之间的关联关系。
优选地,所述根据每一所述农业实体以及每一所述农业实体之间的关联关系,建立农业知识图谱的步骤包括:
将每一所述农业实体的名称标识以及每一所述农业实体之间的关联关系导入至预设图形数据库,并进行可视化转换得到所述农业知识图谱。
本发明一实施方式提供一种农业知识图谱构建装置,所述农业知识图谱构建装置包括处理器及存储器,所述存储器上存储有若干计算机程序,所述处理器用于执行存储器中存储的计算机程序时实现上述的农业知识图谱构建方法的步骤。
本发明一实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现上述的农业知识图谱构建方法的步骤。
与现有技术相比,上述农业知识图谱构建装置、方法及计算机可读存储介质,可以实现构建一指定区域的农业知识图谱,提升农业领域数据管理效率及数据使用的便捷性,可以辅助农民进行作物生产、企业采购,为大众科普农业知识。
附图说明
图1是本发明一实施方式的农业知识图谱构建装置的结构示意图。
图2是本发明一实施方式的农业知识图谱构建***的功能模块图。
图3是本发明另一实施方式的农业知识图谱构建***的功能模块图。
图4是本发明一实施方式的农业实体为豌豆的百科页面内容的特征划分示意图。
图5是本发明一实施方式的农业知识问答的推理示意图。
图6是本发明一实施方式的农业知识图谱构建方法的流程图。
主要元件符号说明
Figure BDA0002098891780000031
Figure BDA0002098891780000041
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
请参阅图1,为本发明农业知识图谱构建装置较佳实施例的示意图。
所述农业知识图谱构建装置100包括存储器10、处理器20以及存储在所述存储器10中并可在所述处理器20上运行的计算机程序30,例如农业知识图谱构建程序。所述处理器20执行所述计算机程序30时实现农业知识图谱构建方法实施例中的步骤,例如图6所示的步骤S600~S608。或者,所述处理器20执行所述计算机程序30时实现农业知识图谱构建***实施例中各模块的功能,例如图2中的模块101~105或者图3中的模块101~107。
所述计算机程序30可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器10中,并由所述处理器20执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序30在所述农业知识图谱构建装置100中的执行过程。例如,所述计算机程序30可以被分割成图2中的获取模块101、处理模块102、筛选模块103、解析模块104及建立模块105,或者被分割成图3中的获取模块101、处理模块102、筛选模块103、解析模块104、建立模块105、分类模块106及添加模块107。各模块具体功能参见农业知识图谱构建***实施例中各模块的功能。
所述农业知识图谱构建装置100可以是电脑、服务器等计算设备。本领域技术人员可以理解,所述示意图仅是农业知识图谱构建装置100的示例,并不构成对农业知识图谱构建装置100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述农业知识图谱构建装置100还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器20也可以是任何常规的处理器等,所述处理器20可以利用各种接口和线路连接农业知识图谱构建装置100的各个部分。
所述存储器10可用于存储所述计算机程序30和/或模块,所述处理器20通过运行或执行存储在所述存储器10内的计算机程序和/或模块,以及调用存储在存储器10内的数据,实现所述农业知识图谱构建装置100的各种功能。所述存储器10可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
图2为本发明农业知识图谱构建***较佳实施例的功能模块图。
参阅图2所示,农业知识图谱构建***40可以包括获取模块101、处理模块102、筛选模块103、解析模块104及建立模块105。在一实施方式中,上述模块可以为存储于所述存储器10中且可被所述处理器20调用执行的可程序化软件指令。可以理解的是,在其他实施方式中,上述模块也可为固化于所述处理器20中的程序指令或固件(firmware)。
所述获取模块101用于获取一目标区域的农业领域数据,并基于获取的农业领域数据构建语料库。
在一实施方式中,所述目标区域可以根据实际的使用需求进行设定,比如若需要建立一指定市的农业知识图谱,则该目标区域的农业领域数据可以是该指定市的农业领域数据,若需要建立一指定县的农业知识图谱,则该目标区域的农业领域数据可以是该指定县的农业领域数据。所述农业领域数据可以是非结构化数据、半结构化数据,所述非结构化数据比如可以是农产品图片、音频、视频,所述半结构化数据比如可以是包含有农业数据的XML、JSON,包含有农业数据的农业百科页面。所述农业领域数据包括但不限于蔬菜数据、水果数据、种子数据、畜牧数据、家禽数据、水产数据、化肥数据、饲料数据、天气数据、自然灾害数据等。
在一实施方式中,所述获取模块101获取农业领域数据的方式包括但不限于通过网络爬虫技术、访问已购买的农业商用数据库、行业研究报告、使用公开农业数据集、使用搜索引擎等。当所述获取模块101获取得到目标区域的农业领域数据后,对获取得到的农业领域数据进行预处理来构建语料库。所述预处理比如是指对非结构化数据及半结构化数据进行处理来得到语料,再汇集处理得到的语料来构建所述语料库。
所述处理模块102用于对所述语料库中的语料进行分词与词性标注处理,以识别出多个实体概念。
在一实施方式中,所述处理模块102可以利用预设词法分析工具对所述语料库中的语料进行分词与词性标注处理,再对词性标注的结果进行命名实体识别,以识别出多个实体概念。
举例而言,所述处理模块102利用Thulac中文词法分析工具包对所述语料库中的语料进行分词与词性标注处理,当识别为命名实体的,通过预设标注标注出来,当识别为非命名实体的,不进行标注。
所述筛选模块103用于根据预设筛选规则对识别出的实体概念进行筛选得到多个农业实体。
在一实施方式中,所述农业实体可以是属于农业领域的实体,比如,所述农业实体可以是蔬菜实体、水果实体、种子实体、畜牧实体、家禽实体、水产实体等。由于多个实体概念中可能包含有非农业实体,所述筛选模块103还根据预设筛选规则对识别出的实体概念进行筛选得到多个农业实体。所述预设筛选规则可以根据实际使用需求进行设定,比如,所述预设筛选规则可以是关键字筛选,或者采用预设词组合和词性规则来扫描所得到的实体概念,进而来过滤掉不是农业实体的部分。所述词性规则比如是:若为动词,则认定不是农业实体。
所述解析模块104用于对所述语料库中的语料进行解析与关系提取,得到多个所述农业实体之间的关联关系。
在一实施方式中,所述解析模块104可以对所述语料库中的语料进行语句解析得到词法信息、句法信息及语义信息,再利用预先训练的关系提取模型对解析到的词法信息、句法信息及语义信息进行分析,以得到多个所述农业实体之间的关联关系。
在一实施方式中,当对一语料进行解析时,所述解析模块104可以通过生成该语料的句法分析树来获得该语料的词法信息和句法信息,可以通过对语料的结构进行分析得到该语料的语义信息。
在一实施方式中,可以采用远程监督的方式来获取用于训练所述关系提取模型的训练样本数据,比如可以将已有的知识对应到非结构化语料中,从而生成大量的训练样本数据,然后基于训练样本数据及机器学习算法来训练得到所述关系提取模型,所述机器学习算法可以是神经网络算法、归纳算法。该些知识的来源可以是人工标注、现有的知识库或特定的语句结构。举例而言,对于特定的语句结构可以认为是指定,如指定“A是一种B”结构为子类关系,则A-子类关系-B。比如“香蕉是一种热带水果”,通过特定语句结构解析得到:香蕉-子类关系-热带水果。
所述建立模块105用于根据每一所述农业实体以及每一所述农业实体之间的关联关系,建立农业知识图谱。
在一实施方式中,当每一所述农业实体之间的关联关系被建立后,所述建立模块105可以根据每一所述农业实体以及每一所述农业实体之间的关联关系建立得到所述农业知识图谱。
在一实施方式中,以所述农业实体包括蔬菜实体、水果实体、畜牧实体、水产实体及化肥实体为例,所述建立模块105可以通过以下方式来实现构建所述农业知识图谱:所述建立模块105获取蔬菜实体、水果实体、畜牧实体、水产实体及化肥实体的名称标识,并基于获取的蔬菜实体、水果实体、畜牧实体、水产实体及化肥实体的名称标识构建农业知识图谱框架,再将每一农业实体之间的关联关系填充至所述农业知识图谱框架,得到所述农业知识图谱。
在一实施方式中,所述建立模块105还可以将每一所述农业实体的名称标识以及每一所述农业实体之间的关联关系导入至预设图形数据库,并通过所述预设图形数据的可视化转换得到所述农业知识图谱。比如,所述预设图形数据库可以是Noe4j图形数据库,所述建立模块105将每一所述农业实体的名称标识以及每一所述农业实体之间的关联关系导入至Noe4j图形数据库并进行可视化,可以生成所述农业知识图谱。
请同时参阅图3,与图2相比,所述农业知识图谱构建***40还包括分类模块106及添加模块107。
所述分类模块106用于从网络上爬取得到每一所述农业实体的百科信息,并对爬取得到的百科页面内容进行相似度分析,得到每一所述农业实体的分类信息。
在一实施方式中,对于被认定为农业实体的词条,所述分类模块106可以在互动百科/百度百科等公开的百科网站中进行爬取得到每一所述农业实体的百科信息,抛弃不存在的页面或者错误的页面,再对爬取得到的百科页面内容进行相似度分析,得到每一所述农业实体的分类信息。
在一实施方式中,所述分类模块106可以根据百科页面内容提取得到每一百科页面内容的多个指定特征,再利用临近算法(KNN算法)计算得到任意两个百科页面内容之间的每一特征组的相似度,并对计算得到的多个特征组的相似度进行加权运算得到所述任意两个百科页面内容的综合相似度,即得到与该两个百科页面内容对应的两个农业实体的综合相似度,实现由农业实体A的类别推断出农业实体B的类别。举例而言,每一百科页面内容中包括第一至第三指定特征,每一特征组的相似度可以是两个百科页面内容的第一指定特征之间的相似度、第二指定特征之间的相似度、第三指定特征之间的相似度。
如图4所示,假设农业实体为豌豆,图4示意出了豌豆的百科页面内容。该豌豆的百科页面内容包括四个指定特征,其中第一指定特征为标题,第二指定特征为开放分类,第三指定特征为内容简介、第四指定特征为基本信息。所述分类模块106通过KNN算法计算两个百科页面内容之间的相似度的方式可以是:a).计算两组“标题”之间的词向量的余弦相似度;b).计算两组“开放分类”之间的词向量的余弦相似度;c).计算两组“基本信息”中重复项的个数,以得到一相似度;d).计算两组“内容简介”的重合率;e).将上述a-d的运算结果进行加权运算得到该两个百科页面内容之间的综合相似度。
可以理解的是,可以预先为第一至第四指定特征设置对应的权重系数,进而可以根据权重系数与a-d的运算结果进行加权运算得到该两个百科页面内容之间的综合相似度。
所述添加模块107用于将每一所述农业实体的分类信息添加至所述农业知识图谱。
在一实施方式中,所述添加模块107可以将每一所述农业实体的分类信息添加至所述农业知识图谱,进而可以实现农业知识概览功能与农业实体分类树功能。
在一实施方式中,所述添加模块107还可以基于预设提取规则对爬取得到的百科页面内容进行提取,并将提取得到的内容添加至所述语料库。所述预设提取规则可以是针对百科页面的指定区域内容进行提取。在本发明的其他实施方式中,所述添加模块107还可以基于预设提取规则对爬取得到的百科页面内容进行提取,并将提取得到的内容添加至所述农业知识图谱。
在一实施方式中,为了确保所述农业知识图谱的准确性,可以设定一预设更新规则来对所述农业知识图谱进行更新。所述预设信息更新规则可以根据实际使用需求进行设定,比如所述预设信息更新规则可以包括每月更新一次所述农业知识图谱。
在一实施方式中,可以利用所述建立得到的农业知识图谱实现以下功能:
1).农业实体识别功能,可以实现识别出非结构化文本中的农业实体及其农业类型。举例而言,某一非结构化文本内容为:“化学肥料简称化肥。用化学和(或)物理方法制成的含有一种或几种农作物生长需要的营养元素的肥料,也称无机肥料,包括氨肥、磷肥、钾肥、微肥、复合化肥等。通过所述农业知识图谱可以得到的识别结果为:化学肥料简称化肥。用化学和(或)物理方法制成的含有一种或几种农作物生长需要的营养元素肥料,也称 机肥料,包括氨肥磷肥钾肥微肥复合化肥等。其中,划线内容为识别的实体。
2).农业实体百科功能,可以展示农业实体的基本信息、农业类型等信息。比如查询的农业实体为“豌豆”,所述农业知识图谱可以展示百科词条“https://baike.***.com/item/豌豆/822636?fr=aladdin”所显示的部分/全部内容。
3).农业知识概览功能,可以实现对农业知识进行归类。举例而言,对水果进行归类。
分类专题:水果
上级分类:食品农业-可以食用的植物
下级分类:
水果种类
Figure BDA0002098891780000111
在一实施方式中,还可以以水果名称首字母进行分类显示。比如:
Figure BDA0002098891780000112
Figure BDA0002098891780000121
4).农业实体分类树功能,实现将农业实体类别组织成树状结构进行展示。举例而言,以农业为根节点进行树状结构展示,可得到:
农业
Figure BDA0002098891780000122
Figure BDA0002098891780000131
5).关联实体查询功能,输入实体可以查询得到与之有关联的实体与关系信息。举例而言,输入的农业实体为香蕉,可得到以下信息:
实体1 关系 实体2
香蕉 子类关系 浆果
香蕉 子类关系 水果
香蕉 子类关系 热带亚热带水果
香蕉 不同于 大蕉
香蕉 颜色 黄色
香蕉 颜色 褐色
香蕉 颜色 红色
香蕉 颜色 绿色
香蕉 分类单元的自然产物 芭蕉属
香蕉 分类单元的自然产物 小果野蕉杂交野蕉
…… …… ……
6).农业知识问答功能,实现对输入的农业知识问题进行解答。举例而言,问题为“阜阳市太和县适合种什么?”根据图5所示的推理依据,可以得到答案是:山毛榉核桃阔叶树蒙古栎藤本槭属。
图6为本发明一实施方式中农业知识图谱构建方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S600,获取一目标区域的农业领域数据,并基于获取的农业领域数据构建语料库。
步骤S602,对所述语料库中的语料进行分词与词性标注处理,以识别出多个实体概念。
步骤S604,根据预设筛选规则对识别出的实体概念进行筛选得到多个农业实体。
步骤S606,对所述语料库中的语料进行解析与关系提取,得到多个所述农业实体之间的关联关系。
步骤S608,根据每一所述农业实体以及每一所述农业实体之间的关联关系,建立农业知识图谱。
上述农业知识图谱构建装置、方法及计算机可读存储介质,可以实现构建一指定区域的农业知识图谱,提升农业领域数据管理效率及数据使用的便捷性,可以辅助农民进行作物生产、企业采购,为大众科普农业知识。
对本领域的技术人员来说,可以根据本发明的发明方案和发明构思结合生产的实际需要做出其他相应的改变或调整,而这些改变和调整都应属于本发明所公开的范围。

Claims (7)

1.一种农业知识图谱构建方法,其特征在于,所述方法包括:
获取一目标区域的农业领域数据,并基于获取的农业领域数据构建语料库;
对所述语料库中的语料进行分词与词性标注处理,以识别出多个实体概念;
根据预设筛选规则对识别出的实体概念进行筛选得到多个农业实体;
对所述语料库中的语料进行解析与关系提取,得到多个所述农业实体之间的关联关系;
根据每一所述农业实体以及每一所述农业实体之间的关联关系,建立农业知识图谱;
从网络上获取每一所述农业实体的百科信息;
基于预设提取规则对获取到的百科页面内容进行提取,并将提取得到的内容添加至所述语料库和/或所述农业知识图谱;
对获取到的百科页面内容进行相似度分析,得到每一所述农业实体的分类信息;及
将每一所述农业实体的分类信息添加至所述农业知识图谱;
其中,所述对获取到的百科页面内容进行相似度分析的步骤包括:
提取每一所述百科页面内容中的多个指定特征;
利用KNN算法计算得到任意两个百科页面内容之间的每一特征组的相似度;及
对计算得到的多个特征组的相似度进行加权运算得到所述任意两个百科页面内容的综合相似度。
2.如权利要求1所述的方法,其特征在于,所述农业领域数据包括非结构化的农业领域数据及半结构化的农业领域数据。
3.如权利要求1或2所述的方法,其特征在于,所述对所述语料库中的语料进行分词与词性标注处理,以识别出多个实体概念的步骤包括:
利用预设词法分析工具对所述语料库中的语料进行分词与词性标注处理;及
对词性标注的结果进行命名实体识别,以识别出多个实体概念。
4.如权利要求1所述的方法,其特征在于,所述对所述语料库中的语料进行解析与关系提取,得到多个所述农业实体之间的关联关系的步骤包括:
对所述语料库中的语料进行解析得到词法信息、句法信息及语义信息;及
将所述解析得到的词法信息、句法信息及语义信息输入至预先训练的关系提取模型,得到多个所述农业实体之间的关联关系。
5.如权利要求1所述的方法,其特征在于,所述根据每一所述农业实体以及每一所述农业实体之间的关联关系,建立农业知识图谱的步骤包括:
将每一所述农业实体的名称标识以及每一所述农业实体之间的关联关系导入至预设图形数据库,并进行可视化转换得到所述农业知识图谱。
6.一种农业知识图谱构建装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5任一项所述的农业知识图谱构建方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现如权利要求1-5任一项所述的农业知识图谱构建方法的步骤。
CN201910528268.5A 2019-06-18 2019-06-18 农业知识图谱构建装置、方法及计算机可读存储介质 Active CN110209839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910528268.5A CN110209839B (zh) 2019-06-18 2019-06-18 农业知识图谱构建装置、方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910528268.5A CN110209839B (zh) 2019-06-18 2019-06-18 农业知识图谱构建装置、方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110209839A CN110209839A (zh) 2019-09-06
CN110209839B true CN110209839B (zh) 2021-07-27

Family

ID=67793313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910528268.5A Active CN110209839B (zh) 2019-06-18 2019-06-18 农业知识图谱构建装置、方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110209839B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11497156B2 (en) * 2019-09-09 2022-11-15 International Business Machines Corporation Farm cultivation quality
CN113010529A (zh) * 2019-12-19 2021-06-22 广州极飞科技股份有限公司 基于知识图谱的作物管理方法和装置
CN111507758B (zh) * 2020-04-09 2023-10-31 深圳传世智慧科技有限公司 一种基于语义分析的调研方法、装置、***及服务器
CN111488741A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种税收知识数据语义标注方法及相关装置
CN113761971B (zh) * 2020-06-02 2023-06-20 中国人民解放军战略支援部队信息工程大学 一种遥感影像目标知识图谱构建方法及装置
CN112199508B (zh) * 2020-08-10 2024-01-19 淮阴工学院 一种基于远程监督的参数自适应农业知识图谱推荐方法
CN112329468B (zh) * 2020-11-03 2023-07-25 中国平安财产保险股份有限公司 异质关系网络的构建方法、装置、计算机设备及存储介质
CN113220827B (zh) * 2021-04-23 2023-03-28 哈尔滨工业大学 一种农业语料库的构建方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答***
CN109062939A (zh) * 2018-06-20 2018-12-21 广东外语外贸大学 一种面向汉语国际教育的智能导学方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484461B (zh) * 2014-12-29 2018-03-23 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及***
US10372743B2 (en) * 2016-07-20 2019-08-06 Baidu Usa Llc Systems and methods for homogeneous entity grouping
CN106250412B (zh) * 2016-07-22 2019-04-23 浙江大学 基于多源实体融合的知识图谱构建方法
CN108984661A (zh) * 2018-06-28 2018-12-11 上海海乂知信息科技有限公司 一种知识图谱中实体对齐方法和装置
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台***、设备、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答***
CN109062939A (zh) * 2018-06-20 2018-12-21 广东外语外贸大学 一种面向汉语国际教育的智能导学方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
夏迎春." 基于知识图谱的农业知识服务***研究".《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,(第2019年02期), *

Also Published As

Publication number Publication date
CN110209839A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110209839B (zh) 农业知识图谱构建装置、方法及计算机可读存储介质
Oikonomidis et al. Deep learning for crop yield prediction: a systematic literature review
Lacasta et al. Agricultural recommendation system for crop protection
CN112231460B (zh) 一种基于农业百科知识图谱的问答***的构建方法
CN114595344B (zh) 面向农作物品种管理的知识图谱构建方法及装置
CN113590837A (zh) 一种基于深度学习的食品及健康知识图谱构建方法
CN110597969A (zh) 一种农业知识智能问答方法、***以及电子设备
Ngo et al. Domain specific entity recognition with semantic-based deep learning approach
CN113434644B (zh) 一种农技知识服务方法及***
CN114780740A (zh) 一种茶叶知识图谱的构建方法
CN106649264A (zh) 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN113220827B (zh) 一种农业语料库的构建方法及装置
Saraswat et al. Advanced detection of fungi-bacterial diseases in plants using modified deep neural network and DSURF
Yu et al. Research on weed identification in soybean fields based on the lightweight segmentation model DCSAnet
CN107908749A (zh) 一种基于搜索引擎的人物检索***及方法
Abu Bakar et al. Base durian ontology development using modified methodology
CN114860917B (zh) 农业知识问答方法、装置、电子设备和存储介质
Tzitzikas et al. CIDOC-CRM and machine learning: a survey and future research
Zhu et al. Question answering on agricultural knowledge graph based on multi-label text classification
Sadr An intelligent model for multidimensional personality recognition of users using deep learning methods
CN110555196B (zh) 用于自动生成文章的方法、装置、设备和存储介质
Rowshan et al. Analysis of the impact of intellectual capital on organizational performance with the mediating role of knowledge management in Iranian Oil Terminals Company
Shukla et al. An emerging trend of big data for high volume and varieties of data to search of agricultural data
Wang et al. Intelligent Information extraction algorithm of Agricultural text based on Machine Learning method
Aali et al. presenting a Model of customer engagement Co-Creation: A dual perspective Co-Creation value for the customer and the company

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant