CN102521242A - 一种基于owl本体分析的自动分类*** - Google Patents
一种基于owl本体分析的自动分类*** Download PDFInfo
- Publication number
- CN102521242A CN102521242A CN2011103576508A CN201110357650A CN102521242A CN 102521242 A CN102521242 A CN 102521242A CN 2011103576508 A CN2011103576508 A CN 2011103576508A CN 201110357650 A CN201110357650 A CN 201110357650A CN 102521242 A CN102521242 A CN 102521242A
- Authority
- CN
- China
- Prior art keywords
- owl
- ontology
- module
- instances
- original document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于OWL本体分析的自动分类***,其特征在于:其包括OWL内容分类条件建模模块、原始文档管理模块、OWL本体转换模块、OWL模型匹配模块和匹配结果文档排序模块,其中:OWL内容分类条件建模模块,以人工操作的方式建立OWL内容分类条件模型并存入OWL本体模型库;原始文档管理模块,负责接受待分类的原始文档并把它存入原始文档数据库;OWL本体转换模块,负责将原始文档进行OWL本体转换,生成OWL本体实例并存入本体实例数据库;OWL模型匹配模块,负责将OWL本体实例和OWL内容分类条件模型进行匹配,并把匹配得到的OWL本体实例存入OWL模型匹配结果集;匹配结果文档排序模块,负责与匹配得到的OWL本体实例相对应的原始文档分类、排序后存入分类文档数据库。本发明具有高效、准确等优点。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种基于OWL本体分析的自动分类***。
背景技术
今天,计算机已经深入人类社会的每个角落,而且可以预见其将在人类文明发展进程中扮演越来越重要的角色。让计算机理解人类的知识,从而更加智能化地服务于人类是未来发展的方向。为了实现这个目的,人们做了许多尝试,例如:可以用知识结构重新构造互联网,即:语义互联网,它主要采用W3C的互联网本体语言(Ontology of Web Language,简称:OWL)建立语义网络。如果所有人都按OWL创建互联网,互联网本身就成为一个计算机可以在一定程度上“理解”的知识结构。在这个基础上软件工程师们可以为计算机设计一系列推理规则和引擎,在OWL语义网络上让计算机自己“理解”互联网信息内容,并做出正确的判断和操作。
OWL的构思代表了未来的发展方向,是对计算机能够读懂人类的知识的非常重要的尝试。沿这这个思路,我们可以解决许多以前不能解决或解决不好的问题,例如:互联网文档的分类排序。互联网文档的分类排序是指从互联网的海量文档中查找出与指定的条件(如某个概念)相匹配的尽可能多的文档后分类并排序。传统的语义匹配实际上还是在“关键词”层面进行,其精确度已经不能满足要求了。业内比较经典的方法是通过向量空间比较两个网页的相似性。向量比较法的基础是词频统计和高频词所组成的向量之间吻合度的比较。另外,利用神经网络聚合相似的文章,也能够起到自动分类的作用。上述方法,基本上都是基于统计的方法,与文章包含的真正内容毫无关系。也就是说,人们要先找到一组代表某些类型的文章,然后,让其他文章与其进行相似“形”上的比较,只要“形”似,就认为内容也相似,但这往往不准确。
发明内容
本发明提供了一种解决上述问题的方案,提供一种基于OWL模型的高效,准确的语义匹配***。
本发明的技术方案是提供一种基于OWL本体分析的自动分类***,其特征在于:其包括OWL内容分类条件建模模块、原始文档管理模块、OWL本体转换模块、OWL模型匹配模块和匹配结果文档排序模块,其中:
OWL内容分类条件建模模块,以人工操作的方式建立OWL内容分类条件模型并存入OWL本体模型库;
原始文档管理模块,负责接受待分类的原始文档并把它存入原始文档数据库;
OWL本体转换模块,负责将原始文档进行OWL本体转换,生成OWL本体实例并存入本体实例数据库;
OWL模型匹配模块,负责将OWL本体实例和OWL内容分类条件模型进行匹配,并把匹配得到的OWL本体实例存入OWL模型匹配结果集;
匹配结果文档排序模块,负责与匹配得到的OWL本体实例相对应的原始文档分类、排序后存入分类文档数据库。
优选的,其还包括:
倒排索引建库模块,负责提取本体实例数据库中的OWL本体实例的本体元,建立本体元的倒排索引并存入倒排索引数据库;
所述OWL模型匹配模块在OWL本体元倒排索引数据库中,查找与OWL内容分类条件模型匹配的OWL本体实例,作为匹配结果存入OWL模型匹配结果集。
本发明的一种基于OWL本体分析的自动分类***是一种在OWL模型基础上进行语义匹配的方法,它可以实现将指定概念或条件与海量信息精确的语义匹配。本发明的一种基于OWL本体分析的自动分类***具有高效、准确等优点。
附图说明
图1是本发明的一种基于OWL本体分析的自动分类***的原理框架图。
具体实施方式
下面对本发明的具体实施方式作进一步详细的描述。
如图1所示,本发明的一种基于OWL本体分析的自动分类***包括以下模块:OWL内容分类条件建模、原始文档管理、OWL本体转换、倒排索引建库、OWL模型匹配和匹配结果文档排序,其中:
1)原始文档管理模块负责采集或接受待分类的原始文本(文档),并把它存入原始文档数据库,与将来的本体实例做绑定关系后,将原始文本输出给OWL本体转换模块;
2)OWL本体转换模块负责将原始文本转换为OWL本体实例,
存入OWL本体实例库;
3)本体倒排索引模块负责对OWL本体实例库做本体元倒排索引,并建立OWL本体元倒排索引库;
4)内容管理员通过OWL条件建模工具模块,以OWL模型的形式输入分类条件(集);
5)存入OWL模型库;
6)OWL模型匹配模块,是本专利的核心模块,负责实现OWL条件模型与OWL本体元倒排索引表的模型匹配;
7)匹配的结果输出并存入OWL匹配结果集(数据库);
8)原始文档管理***将与匹配结果绑定的原始文档(集)输出并排序,作为输出结果;
9) 匹配结果文档排序模块将分类好的文档(集)存入分类文档数据库。
本发明的一种基于OWL本体分析的自动分类***的主要工作流程是:
1)内容管理员通过OWL条件建模工具设定内容分类的条件模型;
原始文档模块采集或接收需要被分类的原始文档,建立与未来本体实例的绑定关系,并存入原始文档数据库;
2)OWL本体转换模块将原始文本转换为OWL本体实例,并存入OWL本体实例库;
3)OWL本体倒排索引模块对OWL本体实例库做本体元倒排索引,并存入OWL本体倒排索引库;
4)OWL模型匹配模块,利用OWL条件模型,在OWL本体元倒排索引表中,识别和提取符合分类条件模型的本体元,并由此找到相应本体实例,作为匹配结果(集)输出;
5)调用原始文档管理***,将与OWL本体实例结果集相对应的原始文档找出并排序,作为输出结果的一部分;
6)被分好类的原始文档将自动存入分类文档数据库。
该***适合于对互联网海量信息的自动分类,也可以作为一个子***用于任何需要进行文本内容自动分类的***中,比如:用于知识库的分类管理***中。
以上实施例仅为本发明其中的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (2)
1.一种基于OWL本体分析的自动分类***,其特征在于:其包括OWL内容分类条件建模模块、原始文档管理模块、OWL本体转换模块、OWL模型匹配模块和匹配结果文档排序模块,其中:
OWL内容分类条件建模模块,以人工操作的方式建立OWL内容分类条件模型并存入OWL本体模型库;
原始文档管理模块,负责接受待分类的原始文档并把它存入原始文档数据库;
OWL本体转换模块,负责将原始文档进行OWL本体转换,生成OWL本体实例并存入本体实例数据库;
OWL模型匹配模块,负责将OWL本体实例和OWL内容分类条件模型进行匹配,并把匹配得到的OWL本体实例存入OWL模型匹配结果集;
匹配结果文档排序模块,负责与匹配得到的OWL本体实例相对应的原始文档分类、排序后存入分类文档数据库。
2.根据权利要求1所述的一种基于OWL本体分析的自动分类***,其特征在于:其还包括:
倒排索引建库模块,负责提取本体实例数据库中的OWL本体实例的本体元,建立本体元的倒排索引并存入倒排索引数据库;
所述OWL模型匹配模块在OWL本体元倒排索引数据库中,查找与OWL内容分类条件模型匹配的OWL本体实例,作为匹配结果存入OWL模型匹配结果集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103576508A CN102521242A (zh) | 2011-11-14 | 2011-11-14 | 一种基于owl本体分析的自动分类*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103576508A CN102521242A (zh) | 2011-11-14 | 2011-11-14 | 一种基于owl本体分析的自动分类*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102521242A true CN102521242A (zh) | 2012-06-27 |
Family
ID=46292164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103576508A Pending CN102521242A (zh) | 2011-11-14 | 2011-11-14 | 一种基于owl本体分析的自动分类*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102521242A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982076B (zh) * | 2012-10-30 | 2015-08-19 | 新华通讯社 | 基于语义标签库的多维度内容标注方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
-
2011
- 2011-11-14 CN CN2011103576508A patent/CN102521242A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
Non-Patent Citations (1)
Title |
---|
曹江涛等: "基于本体的电信Web服务匹配", 《计算机工程》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982076B (zh) * | 2012-10-30 | 2015-08-19 | 新华通讯社 | 基于语义标签库的多维度内容标注方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105335496B (zh) | 基于余弦相似度文本挖掘算法的客服重复来电处理方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN105389341B (zh) | 一种客服电话重复来电工单的文本聚类与分析方法 | |
CN102129451B (zh) | 图像检索***中数据聚类方法 | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘***及方法 | |
CN100401300C (zh) | 具有自动分类功能的搜索引擎 | |
CN103279478B (zh) | 一种基于分布式互信息文档特征提取方法 | |
CN102129479B (zh) | 一种基于概率潜在语义分析模型的万维网服务发现方法 | |
CN103970729A (zh) | 一种基于语义类的多主题提取方法 | |
CN107133210A (zh) | 方案文本生成方法及*** | |
CN101488150A (zh) | 一种实时多角度网络热点事件分析装置及分析方法 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN104636424A (zh) | 一种基于图谱分析构建文献综述框架的方法 | |
CN104112026A (zh) | 一种短信文本分类方法及*** | |
CN104216979B (zh) | 中文工艺专利自动分类***及利用该***进行专利分类的方法 | |
CN102542061A (zh) | 一种产品的智能分类方法 | |
CN102207946A (zh) | 一种知识网络的半自动生成方法 | |
CN101963972A (zh) | 情感关键词提取方法及*** | |
CN104536830A (zh) | 一种基于MapReduce的KNN文本分类方法 | |
CN103095849B (zh) | 基于QoS属性预测和纠错的有监督Web服务发现方法及*** | |
CN111522950A (zh) | 一种针对非结构化海量文本敏感数据的快速识别*** | |
CN102521242A (zh) | 一种基于owl本体分析的自动分类*** | |
Shen et al. | A cross-database comparison to discover potential product opportunities using text mining and cosine similarity | |
Xu | Research on enterprise knowledge unified retrieval based on industrial big data | |
CN102521239B (zh) | 一种基于owl的互联网问答信息匹配***及其匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120627 |