CN110245239A - 一种面向汽车领域知识图谱的构建方法及*** - Google Patents
一种面向汽车领域知识图谱的构建方法及*** Download PDFInfo
- Publication number
- CN110245239A CN110245239A CN201910395007.0A CN201910395007A CN110245239A CN 110245239 A CN110245239 A CN 110245239A CN 201910395007 A CN201910395007 A CN 201910395007A CN 110245239 A CN110245239 A CN 110245239A
- Authority
- CN
- China
- Prior art keywords
- data
- automotive field
- related data
- knowledge mapping
- triple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向汽车领域知识图谱的构建方法及***。该方法包括:采集大量互联网中汽车领域相关数据;根据预设分类算法,对所述相关数据进行分类;将分类处理后所述相关数据的文本,进行指代消解处理;根据依存分析法抽取三元组数据;所述三元组数据可视化处理,构建汽车领域知识图谱。该方法构建的汽车领域的知识图谱,数据可视化程度高,方便用户查询汽车的相关信息,更加简便快捷,提高用户体验。
Description
技术领域
本发明涉及知识图谱技术领域,具体是一种面向汽车领域知识图谱的构建方法及***。
背景技术
进入二十一世纪以来,人们逐渐意识到了信息、数据的重要性。中国互联网网络信息中心给出的数据,截止到2017年年末,我国的网民数量达到了惊人的7.72亿。网站的数量超过了533万个,并且仍在以10.6%的年增长率在不断增长。面对如此庞大的数据量,人们如何才能够快速、准确的获取自己想要的信息,正是中国互联网所面临的难题。谷歌在2012年提出了知识图谱的概念,许多研究者看到知识图谱的优势和潜力后,都投入到了知识图谱的研究中。知识图谱能够在语义层面挖掘出数据之间的关系,并且能够以一种新的组织方式存储和返回数据。知识图谱的出现改变了传统的以关键字为基础的搜索模式,知识图谱能够更好的描述数据。
现有技术中在构建知识图谱的时候,首先基于目标语言,构建针对于目标物的初步知识图谱,其中包含了语义理解所需的各种关键要素。然后搜集与关键要素模板匹配的数据。该方法虽然在某些领域能取得较好的效果,但比较依赖于知识三元组模板们无法对普遍的文本提取出较好的知识三元组,构建的知识图谱也有一定的局限性。
国内目前还没有团队深入去做汽车领域的知识图谱,但汽车领域的知识图谱是很有意义的,无论是对卖家、买家还是想查看汽车相关资讯、评论的网友来说都是有帮助的。
因此,如何构建汽车领域的知识图谱、方便人们查询汽车的相关信息是同行从业人员亟待解决的问题。
发明内容
本发明的目的是提供一种汽车领域的知识图谱,可方便用户查看汽车相关资讯、评论,数据可视化程度高,提高用户体验。
本发明实施例提供一种面向汽车领域知识图谱的构建方法,包括:
采集大量互联网中汽车领域相关数据;
根据预设分类算法,对所述相关数据进行分类;
将分类处理后所述相关数据的文本,进行指代消解处理;
根据依存分析法抽取三元组数据;
所述三元组数据可视化处理,构建汽车领域知识图谱。
在一个实施例中,采集互联网汽车领域相关数据,包括:
采用Scrapy爬虫框架采集大量互联网中汽车领域相关数据;所述相关数据包括以下一种或多种:汽车资讯、汽车价格、汽车配置、车主口碑、购买指南、优惠活动、图片、音频和视频信息。
在一个实施例中,将分类处理后所述相关数据的文本,进行指代消解处理,包括:
将代词前后的名词和名词短语建立候选集Ant,用集合Res{1,0}来表示实例的类别;数字1代表正例,表示代词和先行词匹配;数字0代表反例,表示先行词和代词不匹配;
筛选大量文本数据进行标注,按照预设比例制作训练集和测试集;
根据决策树C5.0生成算法来生成决策树模型;
根据所述决策树模型,对文本数据进行指代消解处理。
在一个实施例中,根据依存分析法抽取三元组数据,包括:
通过对文本数据中句子的每个单元进行分析,确定句子的语义结构;
识别出谓语动词,并根据繁易程度分为简单谓语动词和复杂谓语动词,抽取三元组数据;
其中:复杂谓语动词由公式(1)表示:
xA+V+yC+zO (1)
A来表示状语,C表示补语,O表示宾语,V表示动词;
参数x,y,z的取值范围如下式所示:
在一个实施例中,所述三元组数据可视化处理,构建汽车领域知识图谱,包括:
采用Mysql及图数据库Neo4j存储三元组数据,并采用加盐哈希算法来加密Mysql中的用户口令;
根据Thinkphp、Echarts工具实现数据可视化,实现构建汽车领域知识图谱。
第二方面,本发明还提供一种面向汽车领域知识图谱的构建***,包括:
采集模块,用于采集大量互联网中汽车领域相关数据;
分类模块,用于根据预设分类算法,对所述相关数据进行分类;
指代消解模块,用于将分类处理后所述相关数据的文本,进行指代消解处理;
抽取模块,用于根据依存分析法抽取三元组数据;
可视化构建模块,用于所述三元组数据可视化处理,构建汽车领域知识图谱。
在一个实施例中,所述采集模块,具体用于采用Scrapy爬虫框架采集大量互联网中汽车领域相关数据;所述相关数据包括以下一种或多种:汽车资讯、汽车价格、汽车配置、车主口碑、购买指南、优惠活动、图片、音频和视频信息。
在一个实施例中,所述指代消解模块,包括:
建立子模块,用于将代词前后的名词和名词短语建立候选集Ant,用集合Res{1,0}来表示实例的类别;数字1代表正例,表示代词和先行词匹配;数字0代表反例,表示先行词和代词不匹配;
制作子模块,用于筛选大量文本数据进行标注,按照预设比例制作训练集和测试集;
生成子模块,用于根据决策树C5.0生成算法来生成决策树模型;
指代消解子模块,用于根据所述决策树模型,对文本数据进行指代消解处理。
在一个实施例中,所述抽取模块,包括:
确定子模块,用于通过对文本数据中句子的每个单元进行分析,确定句子的语义结构;
识别抽取子模块,用于识别出谓语动词,并根据繁易程度分为简单谓语动词和复杂谓语动词,抽取三元组数据;其中:复杂谓语动词由公式(1)表示:
xA+V+yC+zO (1)
A来表示状语,C表示补语,O表示宾语,V表示动词;
参数x,y,z的取值范围如下式所示:
在一个实施例中,所述可视化构建模块,具体用于采用Mysql及图数据库Neo4j存储三元组数据,并采用加盐哈希算法来加密Mysql中的用户口令;根据Thinkphp、Echarts工具实现数据可视化,实现构建汽车领域知识图谱。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的一种面向汽车领域知识图谱的构建方法,构建了汽车领域的知识图谱,实现数据可视化,对于用户来说,可以直接查询到想要了解的汽车的相关信息,更加简便快捷,提高用户体验。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的面向汽车领域知识图谱的构建方法的流程图;
图2为本发明实施例提供的网络爬虫体系结构;
图3为本发明实施例提供的决策树模型结构图;
图4为本发明实施例提供的步骤S103的流程图;
图5为本发明实施例提供的步骤S104的流程图;
图6为百度百科搜索奥迪Q5示意图;
图7为本发明实施例提供的数据导入图;
图8为本发明实施例提供的搜索结果图;
图9为本发明实施例提供的***拓扑图;
图10为本发明实施例提供的面向汽车领域知识图谱的构建***框图;
图11为本发明实施例提供的指代消解模块903的框图;
图12为本发明实施例提供的抽取模块904的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1所示,本发明实施例提供的一种面向汽车领域知识图谱的构建方法,该方法包括:步骤S101~S105;
S101、采集大量互联网中汽车领域相关数据;
S102、根据预设分类算法,对所述相关数据进行分类;
S103、将分类处理后所述相关数据的文本,进行指代消解处理;
S104、根据依存分析法抽取三元组数据;
S105、所述三元组数据可视化处理,构建汽车领域知识图谱。
本实施例中,在抽取三元组之前,对文本数据增加了指代消解过程,消除了文本中代词,提高了三元组抽取的准确率。并且本实施例通过采集、分类、指代消解、抽取三元组、可视化处理,构建了汽车领域的知识图谱,实现数据可视化,方便用户查询汽车的相关信息,提高了用户体验。
在步骤S103中,上述指代消解是指:在汉语的惯用表达中,同一个名词在一句的前后或者几句之间反复出现时,往往后边的名词会用指示代词来替代。指示代词可以指代人、物品或者某一事件等。常见的指示代词有他(们)、她(们)、它(们)、这、那、这样、这些等等。指代消解是指找到这些代词真正指代的对象,而这些对象又称为先行词。指代消解也可以理解为,找到代词和相匹配的先行词。本***采用决策树模型来处理指代消解问题,将指代消解问题转化成分类问题来处理。
在步骤S105中,上述知识图谱指:知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的关系。
在一个实施例中,从网络上大规模获取数据的时候,往往采用网络爬虫,又称spider,可以高效的自动提取网页内容,通用的网络爬虫体系结构如图2所示。
在解析网站内容的时候,可以采用XPath、正则表达式或者Beautiful Soup三种方式。XPath(XML Path Language)是一门从XML文档中查找信息的语言。XPath表达式,就像一条路径一样,找到信息数据的位置。通过XPath解析网页的方法,虽然方便高效,但前提是对网站结构是清楚的或者爬取的是结构完全相同的网页,否则不能确定正确的XPath表达式,从而不能提取到正确的信息。正则表达式是将网页内容当做一个字符串来处理,它优点在于,运行速度比较快,耗时较少,效率相对比较高。但是正则表达式语法比较难,对于复杂的网页,写出正确高效的正则表达式是一个考验。Beautiful Soup是python的一个HTML解析库,我们可以利用Beautiful Soup很方便的处理HTML文件和XML文件。Beautiful Soup能够将文档按照DOM树的方式去解析,并能够访问父节点、子节点、兄弟节点。Beautiful Soup解析方式虽然方便,使用起来比较简单,但也需要提前对网页结构比较了解。
本实施例中采用了基于Python的Scrapy爬虫框架,爬取互联网中汽车领域相关数据,比如从新浪汽车网、网易汽车网和太平洋汽车网等汽车领域采集相关数据。该相关数据可以包括如下一种或多种,汽车资讯、汽车价格、汽车配置、车主口碑、购买指南、优惠活动、图片、音频和视频信息等。
在一个实施例中,上述步骤S102中,根据预设分类算法,对相关数据进行分类;其中分类算法,比如可以是决策树、贝叶斯、人工神经网络、k-近邻、支持向量机、基于关联规则的分类等,本实施例中,以采用决策树模型为例,对相关数据进行分类。
上述决策树模型是一种比较常用分类算法,决策树模型的结构类似数据结构中树的形态。树内部的每一个节点代表的是对一个特征的测试,树的分支代表该特征的每一个测试结果,而树的每一个叶子节点代表一个类别。
如图3所示,用圆形来表示某种特征或者属性,用正方形来表示类别。当判断一个实例属于哪个类型时,先从根节点来开始判断,判断该实例应该走哪条路径,采用递归的思想重复上述的步骤,直到实例走到了叶子节点。那么这个叶子节点所代表的的类型便是该实例的类型。也有人将决策树判断的过程看成是if-then的过程,因为在经过每个特征属性节点时,都需要做一次if判断,然后根据实际特征选择路径。也因此可以得出,在决策树模型中从起始节点到任何一个叶子节点之间的路径都有一系列约束条件,约束条件的个数并不是完全相同的。从根节点出发,走到距离根节点较远的叶子节点时,经过的约束条件就越多。为了消除歧义,这些约束条件必须是互斥的,完备的。这样可以避免一个实例可以被划分到多个类别的问题和一个实例无法被划分到任何一个类别的问题。
在一个实施例中,参照图4所示,将分类处理后所述相关数据的文本,进行指代消解处理,包括:
S1031、将代词前后的名词和名词短语建立候选集Ant,用集合Res{1,0}来表示实例的类别;数字1代表正例,表示代词和先行词匹配;数字0代表反例,表示先行词和代词不匹配;
S1032、筛选大量文本数据进行标注,按照预设比例制作训练集和测试集;
S1033、根据决策树C5.0生成算法来生成决策树模型;
S1034、根据所述决策树模型,对文本数据进行指代消解处理。
本实施例中,采用决策树算法对文本数据进行指代消解处理,将指代消解问题转换为分类问题来处理,提高指代消解的准确率。
选择特征的质量,将会直接影响指代消解效果的好坏。本实施例分析了汽车领域信息的特点,选取了特殊名词特征、性别特征和量词特征等七大特征。
1、专有名词指的是句子中的先行词是人名、地理位置的名字、组织机构的名字以及时间等名词。如“一汽集团”、“红旗轿车”、“发动机”等都是专有名词。对句子做预处理操作时,要识别出专有名词。本方法采用了斯坦福大学的开源工具包NLTK,先对句子进行分词操作,然后借助命名实体识别模块来识别出专有名字。
2、性别特征是将句子中的先行词和代词按照性别划分出三类。先行词可划分为男性先行词、女性先行词和未确定性别先行词。常见的男性先行词有“哥哥”、“弟弟”、“兄弟”、“哥们”等,常见的女性先行词有“姐姐”、“妹妹”、“姐妹”、“阿姨”等。代词可划分为男性代词、女性代词和为确定性别代词。常见的男性代词有“他”、“他们”,常见的女性代词有“她”、“他们”等,常见的未确定性别的代词有“它”。很明显,男性先行词和女性代词以及女性先行词和男性代词是无法匹配的,性别特征能够指代消解提高准确率。
3、量词特征是指将句子中先行词和代词按照数量属性划分出三类。先行词可划分为单数先行词,复数先行词和未确定数量的先行词。确定先行词的单复数特征往往可以通过分析先行词的修饰词,若先行词前有“一个”、“一只”等修饰词时,可以判断该先行词是单数先行词。若先行词前有“多个”、“数个”、“许多”、“一群”、“一批”等修饰,可以判断该先行词是复数先行词。同时,在汉语表达中,某个地点、某个机构或者某段时间往往也用单数来表示。
4、间隔特征指的是先行词和代词所在句子的间隔距离,若先行词和代词出现在同一个句子中,则令他们之间的距离为0,若他们所在句子的距离为,则令他们之间的距离特征为。通过实验可知距离特征为0或1的句子中,往往存在匹配的先行词和代词。
5、简化词特征是一个非常重要的特征。简化特征要求代词是先行词的一种简化形式或者缩略词,也就是说代词是先行词中的连续的一部分或者是先行词中的不相邻的几个字组成。比如我们有一个先行词为“中国第一汽车集团有限公司”,而“一汽”便是它的一个简化词。
6、指代相似性特征是指先行词和代词拥有相似的性质,即他们所指代的事务是相似的。假设先行词指向的是人物,那么代词也必须是人物代词。满足指代相似性特征,先行词和代词才有可能是匹配的。
7、同位语特征是指若先行词和代词之间是同位语的关系,则他们之间有很大的可能性是指代关系。
基于上述七大特征,采用决策树的思想来解决指代消解问题,首先需要将代词前后的名词和名词短语组成候选集Ant,用集合Res{1,0}来表示实例的类别,“1”代表正例,即代词和先行词是匹配的。“0”代表反例,即先行词和代词是不匹配的。
比如,实验中采用的数据集来源有网易汽车网、新浪汽车网、太平洋汽车网以及汽车领域相关的百科词条。从中筛选了100条新闻数据进行标注,并按照4:1的比例制作训练集和测试集。训练决策树模型时,借鉴了英文指代消解的思想,通过C5.0生成算法来生成决策树模型。
实验中采用准确率、召回率来和F值评测模型,其计算公式如下所示。
得到的结果如下表所示:
表1指代消解结果展示
在一个实施例中,参照图5所示,根据依存分析法抽取三元组数据,包括:
S1041、通过对文本数据中句子的每个单元进行分析,确定句子的语义结构;
S1042、识别出谓语动词,并根据繁易程度分为简单谓语动词和复杂谓语动词,抽取三元组数据。
本实施例中,采用依存分析的方法来抽取三元组,能够准确找到各要素之间的联系,从而提高三元组的质量。
在步骤S1041中,上述依存分析是通过对句子中每个单元进行分析,挖掘每个单元之间关系,从而确定句子的语义结构,核心动词在依存分析中占据了十分重要的地位。
在步骤S1042中,三元组抽取模块是指:知识三元组抽取是构建知识图谱的核心步骤,三元组抽取的准确与否直接影响知识图谱的质量。一个知识三元组通常可以表示两个实体及他们之间的语义关系,可以形式化为(head,rel,tail)。head指代的是头实体,也是关系的发起者。tail表示的是尾实体,也是关系的承受着。tail代表的是实体间的关系,在知识图谱中关系是有方向的,通常表示的是头实体指向尾实体的关系。本***中采用了依存分析的方法来抽取三元组,并取得了不错的效果。
具体的,当清楚了句子的结构和句子中的关系类型后,还要参考汉语的常用关系表述方式来获取三元组。当在处理英文数据时,可以直接将英文句子中的谓语动词视为头实体和尾实体之间的关系。而在中文句子中,谓语动词相对复杂,不能直接将其直接视为实体间的关系。谓语动词可以根据繁易程度分为简单谓语动词和复杂谓语动词。
简单谓语动词通常由简单动词或者动词短语构成。比如,“一汽生产红旗”中,“生产”是一个简单的谓语动词,此时可以直接将谓语动词当做实体间的关系。简单的动词短语可以分为动宾短语、后补短语、偏正短语。动宾短语指的是动词后边有一个宾语,如例句“生产汽车”,“汽车”便是“生产”的宾语。后补短语指的是动词后边加一个补语,如例句“做工好”。偏正短语指的是动词的前边有一个状语,如例句“大量生产”。
复杂谓语动词指的是动词由状语、补语以及宾语中的两种或两种以上成分修饰。用A来表示状语,用C来表示补语,用O来表示宾语,用V来表示动词。则可用下式来表示复杂的谓语动词。
xA+V+yC+zO (1)
其中参数x,y,z的取值范围如下式所示。
一个复杂的谓语动词短语中可以有0个或者多个状语,但至多只能有一个补语和宾语,如“迅速开展新车检测”。正确识别出谓语动词的类型能够帮助准确的找到实体间的关系,从而能够提高知识三元组的质量。
三元组抽取实验的数据来源是网易汽车网、新浪汽车网、太平洋汽车网以及百度百科词条,并且经过了指代消解处理,将句子中的代词用先行词替代,避免抽取的实体中有代词等干扰因子。
我们以百度百科为例,搜索奥迪Q5汽车的百科词条,词条信息如图6所示。从中可以抽取的部分三元组如下表所示。
表2抽取的知识三元组
比如,从新闻数据中筛选出了100篇新闻来做测试。实验评估指标采用了准确率、召回率和F值,实验结果如下。
表3三元组抽取结果
在一个实施例中,上述三元组数据可视化处理,构建汽车领域知识图谱。
具体的,数据可视化可包括三元组数据的导入和清空功能,以及三元组查询搜索功能。在本实施例中采用了Neo4j图数据库来存储三元组数据,后台采用的是PHP+ThinkPhp搭建的。
数据可视化部分开发环境如表4所示:
表4***开发环境
操作*** | Ubuntu 16.04 |
内存 | 32G |
处理器 | Intel i7-8700K |
开发语言 | PHP7.0 |
开发框架 | Thinkphp5.0 |
数据库 | Mysql 5.7.14+Neo4j 3.2.9 |
服务器 | Apache 2.4.23 |
本部分包括的主要功能有用户验证、数据导入清空以及三元组查询。
数据存储的时候,可选择Mysql+Neo4j联合存储的方法。Mysql是一款开源的、高效的关系型数据库,用它来存储用户名、密码等信息。比如采用加盐哈希算法来加密用户口令,即将密码和干扰字符串拼接后在经过哈希映射,是一种不可逆的加密算法。用数据表jlu_solt存储干扰因子,其结构如下表所示。
表5 jlu_solt表结构
字段名 | 数据类型 | 数据长度 | 描述信息 |
solt_id | int | 11 | 编号,主键 |
solt_username | varchar | 255 | 用户名 |
solt_value | varchar | 255 | 干扰因子 |
用数据表jlu_user来存储用户登录信息,其结构如表6所示。
表6 jlu_user表结构
字段名 | 数据类型 | 数据长度 | 描述信息 |
user_id | int | 11 | 编号,主键 |
user_username | varcahr | 255 | 用户名 |
user_psw | varchar | 255 | 加密后的密码 |
user_phone | varchar | 255 | 用户电话 |
user_mail | varchar | 255 | 用户邮箱 |
验证用户名和密码时,先根据用户名从jlu_solt表中搜索干扰因子,然后和用户输入的密码拼接后再进行整体哈希,将得到的字符串和jlu_user表中存储的密码进行比对。若两个密码一致则登录成功,若不一致则口令错误,登录失败。
在本实施例中,采用Neo4j存储三元组数据,数据导入便是将三元组导入到Neo4j中。数据导入模块选择好数据文件后,便可导入数据。导入成功后,如图7所示。
比如,假设用(head,rel,tail)来表示一个三元组,***提供了六种查询方式,即根据任意一个或者两个条件,来查询完整的三元组。通过下表来说明这六种情况。
表7.六种查询情况
已知条件 | 查询结果 |
head | rel,tail |
head,rel | tail |
rel,tail | head |
rel | head,tail |
head,tail | rel |
tail | head,rel |
比如,如图8所示,三元组是从百度百科奥迪Q5的词条中抽取的,我们通过“奥迪Q5”来搜索三元组数据,并用Echarts来渲染结果。
参照图9所示,本发明实施例采用了Scrapy爬虫框架、借鉴了决策树模型的思想对文本进行指代消解,采用依存分析的方法抽取三元组。采用数据库Neo4j来存储数据,并借助了PHP+Apache+Echarts来做数据可视化。加密算法采用的加盐哈希算法是不可逆的,使***更加安全;可视化模块采用PHP+ThinkPhp的组合,学习成本低,开发效率较高;数据可视化的时候借助Echarts来渲染结果,使实体关系能够更清晰的展示出来。用户能够更加安全快捷的查询相关信息,用户体验更好。
基于同一发明构思,本发明实施例还提供了一种面向汽车领域知识图谱的构建***,由于该***所解决问题的原理与前述面向汽车领域知识图谱的构建方法相似,因此该***的实施可以参见前述方法的实施,重复之处不再赘述。
本发明实施例提供一种面向汽车领域知识图谱的构建***,参照图10所示,包括:
采集模块901,用于采集大量互联网中汽车领域相关数据;
分类模块902,用于根据预设分类算法,对所述相关数据进行分类;
指代消解模块903,用于将分类处理后所述相关数据的文本,进行指代消解处理;
抽取模块904,用于根据依存分析法抽取三元组数据;
可视化构建模块905,用于所述三元组数据可视化处理,构建汽车领域知识图谱。
在一个实施例中,所述采集模块901,具体用于采用Scrapy爬虫框架采集大量互联网中汽车领域相关数据;所述相关数据包括以下一种或多种:汽车资讯、汽车价格、汽车配置、车主口碑、购买指南、优惠活动、图片、音频和视频信息。
在一个实施例中,参照图11所示,所述指代消解模块903,包括:
建立子模块9031,用于将代词前后的名词和名词短语建立候选集Ant,用集合Res{1,0}来表示实例的类别;数字1代表正例,表示代词和先行词匹配;数字0代表反例,表示先行词和代词不匹配;
制作子模块9032,用于筛选大量文本数据进行标注,按照预设比例制作训练集和测试集;
生成子模块9033,用于根据决策树C5.0生成算法来生成决策树模型;
指代消解子模块9034,用于根据所述决策树模型,对文本数据进行指代消解处理。
在一个实施例中,参照图12,所述抽取模块904,包括:
确定子模块9041,用于通过对文本数据中句子的每个单元进行分析,确定句子的语义结构;
识别抽取子模块9042,用于识别出谓语动词,并根据繁易程度分为简单谓语动词和复杂谓语动词,抽取三元组数据;其中:复杂谓语动词由公式(1)表示:
xA+V+yC+zO (1)
A来表示状语,C表示补语,O表示宾语,V表示动词;
参数x,y,z的取值范围如下式所示:
在一个实施例中,所述可视化构建模块905,具体用于采用Mysql及图数据库Neo4j存储三元组数据,并采用加盐哈希算法来加密Mysql中的用户口令;根据Thinkphp、Echarts工具实现数据可视化,实现构建汽车领域知识图谱。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种面向汽车领域知识图谱的构建方法,其特征在于,包括:
采集大量互联网中汽车领域相关数据;
根据预设分类算法,对所述相关数据进行分类;
将分类处理后所述相关数据的文本,进行指代消解处理;
根据依存分析法抽取三元组数据;
所述三元组数据可视化处理,构建汽车领域知识图谱。
2.如权利要求1所述的方法,其特征在于,采集互联网汽车领域相关数据,包括:
采用Scrapy爬虫框架采集大量互联网中汽车领域相关数据;所述相关数据包括以下一种或多种:汽车资讯、汽车价格、汽车配置、车主口碑、购买指南、优惠活动、图片、音频和视频信息。
3.如权利要求1所述的方法,其特征在于,将分类处理后所述相关数据的文本,进行指代消解处理,包括:
将代词前后的名词和名词短语建立候选集Ant,用集合Res{1,0}来表示实例的类别;数字1代表正例,表示代词和先行词匹配;数字0代表反例,表示先行词和代词不匹配;
筛选大量文本数据进行标注,按照预设比例制作训练集和测试集;
根据决策树C5.0生成算法来生成决策树模型;
根据所述决策树模型,对文本数据进行指代消解处理。
4.如权利要求1所述的方法,其特征在于,根据依存分析法抽取三元组数据,包括:
通过对文本数据中句子的每个单元进行分析,确定句子的语义结构;
识别出谓语动词,并根据繁易程度分为简单谓语动词和复杂谓语动词,抽取三元组数据;
其中:复杂谓语动词由公式(1)表示:
xA+V+yC+zO (1)
A来表示状语,C表示补语,O表示宾语,V表示动词;
参数x,y,z的取值范围如下式所示:
5.如权利要求1所述的方法,其特征在于,所述三元组数据可视化处理,构建汽车领域知识图谱,包括:
采用Mysql及图数据库Neo4j存储三元组数据,并采用加盐哈希算法来加密Mysql中的用户口令;
根据Thinkphp、Echarts工具实现数据可视化,实现构建汽车领域知识图谱。
6.一种面向汽车领域知识图谱的构建***,其特征在于,包括:
采集模块,用于采集大量互联网中汽车领域相关数据;
分类模块,用于根据预设分类算法,对所述相关数据进行分类;
指代消解模块,用于将分类处理后所述相关数据的文本,进行指代消解处理;
抽取模块,用于根据依存分析法抽取三元组数据;
可视化构建模块,用于所述三元组数据可视化处理,构建汽车领域知识图谱。
7.如权利要求6所述的***,其特征在于,所述采集模块,具体用于采用Scrapy爬虫框架采集大量互联网中汽车领域相关数据;所述相关数据包括以下一种或多种:汽车资讯、汽车价格、汽车配置、车主口碑、购买指南、优惠活动、图片、音频和视频信息。
8.如权利要求6所述的***,其特征在于,所述指代消解模块,包括:
建立子模块,用于将代词前后的名词和名词短语建立候选集Ant,用集合Res{1,0}来表示实例的类别;数字1代表正例,表示代词和先行词匹配;数字0代表反例,表示先行词和代词不匹配;
制作子模块,用于筛选大量文本数据进行标注,按照预设比例制作训练集和测试集;
生成子模块,用于根据决策树C5.0生成算法来生成决策树模型;
指代消解子模块,用于根据所述决策树模型,对文本数据进行指代消解处理。
9.如权利要求6所述的***,其特征在于,所述抽取模块,包括:
确定子模块,用于通过对文本数据中句子的每个单元进行分析,确定句子的语义结构;
识别抽取子模块,用于识别出谓语动词,并根据繁易程度分为简单谓语动词和复杂谓语动词,抽取三元组数据;其中:复杂谓语动词由公式(1)表示:
xA+V+yC+zO (1)
A来表示状语,C表示补语,O表示宾语,V表示动词;
参数x,y,z的取值范围如下式所示:
10.如权利要求6所述的***,其特征在于,所述可视化构建模块,具体用于采用Mysql及图数据库Neo4j存储三元组数据,并采用加盐哈希算法来加密Mysql中的用户口令;根据Thinkphp、Echarts工具实现数据可视化,实现构建汽车领域知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395007.0A CN110245239A (zh) | 2019-05-13 | 2019-05-13 | 一种面向汽车领域知识图谱的构建方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395007.0A CN110245239A (zh) | 2019-05-13 | 2019-05-13 | 一种面向汽车领域知识图谱的构建方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110245239A true CN110245239A (zh) | 2019-09-17 |
Family
ID=67884290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910395007.0A Pending CN110245239A (zh) | 2019-05-13 | 2019-05-13 | 一种面向汽车领域知识图谱的构建方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245239A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859962A (zh) * | 2020-08-03 | 2020-10-30 | 广州威尔森信息科技有限公司 | 一种提取汽车口碑词云所需数据的方法及装置 |
CN111897914A (zh) * | 2020-07-20 | 2020-11-06 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN112270196A (zh) * | 2020-12-14 | 2021-01-26 | 完美世界(北京)软件科技发展有限公司 | 实体关系的识别方法、装置及电子设备 |
CN112527915A (zh) * | 2020-11-17 | 2021-03-19 | 北京科技大学 | 线性文化遗产知识图谱构建方法、***、计算设备和介质 |
CN112818138A (zh) * | 2021-04-19 | 2021-05-18 | 中译语通科技股份有限公司 | 知识图谱本体构建方法、装置、终端设备及可读存储介质 |
CN113535981A (zh) * | 2021-07-21 | 2021-10-22 | 深圳证券信息有限公司 | 一种公告内容分析方法、***、电子设备及存储介质 |
CN117951314A (zh) * | 2024-03-26 | 2024-04-30 | 南京众智维信息科技有限公司 | 一种融合知识图谱与大语言生成模型的生成剧本决策方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770453A (zh) * | 2008-12-31 | 2010-07-07 | 华建机器翻译有限公司 | 基于领域本体结合机器学习模型的汉语文本共指消解方法 |
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和*** |
CN103488724A (zh) * | 2013-09-16 | 2014-01-01 | 复旦大学 | 一种面向图书的阅读领域知识图谱构建方法 |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及*** |
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
-
2019
- 2019-05-13 CN CN201910395007.0A patent/CN110245239A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770453A (zh) * | 2008-12-31 | 2010-07-07 | 华建机器翻译有限公司 | 基于领域本体结合机器学习模型的汉语文本共指消解方法 |
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和*** |
CN103488724A (zh) * | 2013-09-16 | 2014-01-01 | 复旦大学 | 一种面向图书的阅读领域知识图谱构建方法 |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及*** |
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
Non-Patent Citations (1)
Title |
---|
周世奇: "面向汽车领域知识图谱构建的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897914A (zh) * | 2020-07-20 | 2020-11-06 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN111897914B (zh) * | 2020-07-20 | 2023-09-19 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN111859962A (zh) * | 2020-08-03 | 2020-10-30 | 广州威尔森信息科技有限公司 | 一种提取汽车口碑词云所需数据的方法及装置 |
CN111859962B (zh) * | 2020-08-03 | 2021-06-08 | 广州威尔森信息科技有限公司 | 一种提取汽车口碑词云所需数据的方法及装置 |
CN112527915A (zh) * | 2020-11-17 | 2021-03-19 | 北京科技大学 | 线性文化遗产知识图谱构建方法、***、计算设备和介质 |
CN112527915B (zh) * | 2020-11-17 | 2021-08-27 | 北京科技大学 | 线性文化遗产知识图谱构建方法、***、计算设备和介质 |
CN112270196A (zh) * | 2020-12-14 | 2021-01-26 | 完美世界(北京)软件科技发展有限公司 | 实体关系的识别方法、装置及电子设备 |
CN112818138A (zh) * | 2021-04-19 | 2021-05-18 | 中译语通科技股份有限公司 | 知识图谱本体构建方法、装置、终端设备及可读存储介质 |
CN113535981A (zh) * | 2021-07-21 | 2021-10-22 | 深圳证券信息有限公司 | 一种公告内容分析方法、***、电子设备及存储介质 |
CN117951314A (zh) * | 2024-03-26 | 2024-04-30 | 南京众智维信息科技有限公司 | 一种融合知识图谱与大语言生成模型的生成剧本决策方法 |
CN117951314B (zh) * | 2024-03-26 | 2024-06-07 | 南京众智维信息科技有限公司 | 一种融合知识图谱与大语言生成模型的生成剧本决策方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245239A (zh) | 一种面向汽车领域知识图谱的构建方法及*** | |
CN110968699B (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
Ramnandan et al. | Assigning semantic labels to data sources | |
Ristoski et al. | Semantic Web in data mining and knowledge discovery: A comprehensive survey | |
CN110263180B (zh) | 意图知识图谱生成方法、意图识别方法及装置 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN105824959A (zh) | 舆情监控方法及*** | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
Yin et al. | Facto: a fact lookup engine based on web tables | |
Dessi et al. | A machine-learning approach to ranking RDF properties | |
EP2562659A1 (en) | Data mapping acceleration | |
CN108228758A (zh) | 一种文本分类方法及装置 | |
US9569525B2 (en) | Techniques for entity-level technology recommendation | |
Movshovitz-Attias et al. | Kb-lda: Jointly learning a knowledge base of hierarchy, relations, and facts | |
CN111241410B (zh) | 一种行业新闻推荐方法及终端 | |
Ma et al. | Typifier: Inferring the type semantics of structured data | |
Ristoski | Exploiting semantic web knowledge graphs in data mining | |
CN106202206A (zh) | 一种基于软件聚类的源码功能搜索方法 | |
CN116628229B (zh) | 一种利用知识图谱生成文本语料的方法及装置 | |
Amolochitis et al. | A heuristic hierarchical scheme for academic search and retrieval | |
Pujara et al. | Using semantics and statistics to turn data into knowledge | |
CN112686025A (zh) | 一种基于自由文本的中文选择题干扰项生成方法 | |
CN112685440B (zh) | 标记搜索语义角色的结构化查询信息表达方法 | |
US20220207240A1 (en) | System and method for analyzing similarity of natural language data | |
US11507593B2 (en) | System and method for generating queryeable structured document from an unstructured document using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190917 |