CN102314519B - 一种基于公安领域知识本体模型的信息搜索方法 - Google Patents

一种基于公安领域知识本体模型的信息搜索方法 Download PDF

Info

Publication number
CN102314519B
CN102314519B CN 201110306999 CN201110306999A CN102314519B CN 102314519 B CN102314519 B CN 102314519B CN 201110306999 CN201110306999 CN 201110306999 CN 201110306999 A CN201110306999 A CN 201110306999A CN 102314519 B CN102314519 B CN 102314519B
Authority
CN
China
Prior art keywords
data
complaint
controlled
attribute
public security
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110306999
Other languages
English (en)
Other versions
CN102314519A (zh
Inventor
王电
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Original Assignee
CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd filed Critical CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Priority to CN 201110306999 priority Critical patent/CN102314519B/zh
Publication of CN102314519A publication Critical patent/CN102314519A/zh
Application granted granted Critical
Publication of CN102314519B publication Critical patent/CN102314519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于公安领域知识本体模型的信息搜索方法,属于公安领域自然语言受控词的搜索技术领域。本方法为:1)建立一个分析数据仓库,并对其进行聚类分析,得到六个基本要素;2)根据聚类结果将分析数据仓库中的数据划分为六个类别;3)对每一类别数据进行聚类,得到每一类别基本要素的要素维度;4)对每个要素维度中的数据进行聚类得到其分类属性;5)根据上述聚类结果确定受控词类别的名称,将公安数据划分到相应受控词类别中,得到受控词库;6)对每一受控词,建立多维引号;7)通过索引号在受控词库中查找与输入词有关联的受控词。本发明能够自动搜索出与目标词汇相关的词汇,解决了公安行业内隐藏信息不易利用和关联的问题。

Description

一种基于公安领域知识本体模型的信息搜索方法
技术领域
本发明属于公安领域自然语言受控词的搜索技术领域,涉及一种基于公安领域知识本体模型的信息搜索方法。
背景技术
随着公安行业信息化手段的飞速发展,公安行业存在大量的数据库和信息***的应用,但是由于公安行业处理信息的形式多样,其中存在大量重复和关联数据,现有***及各警种在搜索数据时,只能找到与搜索目标完全匹配的词汇及其相关文本。为了能够更好的实现搜索的效果,扩大搜索结果的范围,找到信息之间存在的隐藏的关联关系,以利于案件侦破。为此,必须找到搜索词汇和其他词汇之间的关系,为了找到这种隐藏的关联关系,就需要建立统一的受控词表,给每个词汇划定清晰的受控词类别。
当前已经存在一些针对领域的知识本体的研究,例如,许湘莲、郭江、肖志怀和曾洪涛发表在《水电能源科学》2007年04期上的“基于本体的电厂维护领域知识表达方法研究”,通过对维护领域知识的分析,提出了基于本体的电厂维护知识表达模型,建立了维护领域本体知识的分类方法,规范了领域知识的描述,使知识的重用、共享和交互成为可能,为提高全体协同维护决策提出了一种行之有效的解决方案。《中国机械工程》2005年15期上由倪益华、顾新建和吴昭同发表的“基于本体的企业知识管理平台的构建”,研究了知识管理实施中的关键技术-知识的分类、知识的表示、企业知识的构建、知识的共享和集成。为制造企业实现基于本体的知识管理平台提供了一种新的理论和方法。但是由于知识本体研究人员缺乏对公安业务的深刻理解,所以针对于公安领域的知识本体研究还未形成。
由于上述原因,公安行业迫切需要一个完备的自然语言知识本体模型,并在此模型的基础上,形成集公安数据采集、加工、组织、发布和维护的受控词自动攫取平台,能够对现有的信息进行自动的、整合性的分析处理,并生成一个科学合理的受控词表,找出不同信息之间可能存在的关联关系,根据这种新的方案建立搜索引擎,从而准确的扩大搜索范围,找到已有数据中隐藏的案件线索和关系。
发明内容
针对现有技术中存在的技术问题,本发明的目的是提供一种基于公安领域自然语言知识本体模型的信息搜索方法,根据公安知识本体模型生成受控词攫取平台,并通过平台生成受控词表,对各种不同来源的数据进行归类,在归类的过程中发现受控词之间的关联关系,以达到扩大搜索范围的目的。
本发明的技术方案为:
一种基于公安领域知识本体模型的信息搜索方法,其步骤为:
1)获取公安领域的基础数据集合,建立一个分析数据仓库;
2)对所述分析数据仓库中的数据进行聚类分析,得到人、物、时空、警务管理、组织机构和行为六个基本要素的聚类结果;
3)根据所述聚类结果将所述分析数据仓库中的数据划分为人、物、时空、警务管理、组织机构和行为六个类别;
4)对分类后的每一类别数据进行聚类分析,得到每一类别基本要素的要素维度;
5)对每个要素维度中包含的数据进行聚类分析,得到每个要素维度的分类属性;
6)根据所述基本要素、要素维度和分类属性中的特征值名称确定受控词类别的名称,然后按照受控词类别,将公安数据划分到相应受控词类别中,得到受控词库;其中,对每一类别建立一张受控词表,每个受控词表中有一受控词来源字段;
7)对所述受控词库采用聚类索引方法,针对同一受控词,建立受控词的自然属性索引号、业务属性索引号和数据属性索引号;
8)对输入的查询请求,通过任一所述索引号在所述受控词库中匹配查找与输入词有关联关系的受控词。
进一步的,聚类得到所述聚类结果的方法为:首先对所述分析数据仓库中的数据进行自由聚类,然后计算每个分类的特征值及其比例,并根据特征值在分类中的比例设置阈值,将特征值达到阈值,并且特征一致的分类进行合并;然后根据分类结果设置聚类分析中的分类数和聚类规则,对所述分析数据仓库中的数据重新进行聚类分析,得到所述聚类结果。
进一步的,确定所述受控词类别的名称的方法为:计算每次聚类中每个特征值的比重,按照特征值在聚类中占据的比例大小,将比例高的特征值的名称作为受控词类别的名称。
进一步的,所述基本要素人的要素维度包括:实有人口、外籍人员、港澳台人员、违法犯罪人员、在逃人员、警官、事业文职、协警;所述基本要素物的要素维度包括:一般物品、***、机动车、物证、书证、生理特征、物理特征、化学特征;所述基本要素组织的要素维度包括:户政组织、社团组织、公民自治、国家行政、国家事业、涉案机构、黑恶势力、团伙组织、警务机构、保安机构;所述基本要素行为的要素维度包括:生活行为、社交行为、特征行为、违法违纪行为、犯罪行为、管控行为、侦查行为、检查行为;所述基本要素时空的要素维度包括:时间、时区、时段、地域、地段、网络空间、GIS现场、电子现场;所述基本要素警务管理的要素维度包括:警员管理、文书管理、制度管理、国家行政、国家事业、涉案机构、黑恶势力、团伙组织、警务机构、保安机构。
进一步的,所述索引号包括:数据维度、数据分类属性、受控词限定类、受控词及其受控词代码值。
进一步的,所述要素维度的分类属性包括:自然/基本属性、标识/标志/标记属性、业务属性、强制/行政/管理措施属性、法定文书属性、检验/鉴定/考核属性。
进一步的,所述按照受控词类别,将公安数据划分到某个受控词类别中的方法为:首先,根据确定好的受控词类别,对公安数据进行自动的采集和搜索,建立基础数据库;然后对所述基础数据库中的数据进行词法分析、句法分析、语义分析,找到数据中的主题词、同义词、近义词,并计算词的词频,根据词频得到热词;最后根据受控词类别将数据划分到某个受控词类别中,从而形成包括主题词、同义词、近义词和热点词的所述受控词库。
进一步的,生成所述受控词的过程中,如果在同一条公安信息中有多个受控词,则通过每一受控词所属类别的名称,找到该受控词对应的聚类,如果聚类中的特征值存在交集,则确定两个受控词之间存在紧密的关联关系;如果两个受控词不在同一公安信息中,则找到该受控词对应的聚类,如果聚类的特征值存在交集,则两受控词存在松散的关联关系;然后,将所述关联关系存储到一关联关系表中,并在所述关联关系表中查找是否存在相同的关联关系,如果没有,则将受控词相关的公安信息连同受控词一起记录到所述关联关系表中,同时标记所述关联关系是紧密的,还是松散的;如果所述关联关系表中存在相同的关联关系,则记录相关公安信息。
进一步的,所述自然属性索引号和业务属性索引号为独立索引号,所述数据属性索引号为相关索引号。
进一步的,对所述受控词库进行排重处理,其方法为:对于由所述自然属性索引树中产生的受控词冲突,对冲突受控词进行规范统一,并同时给出同义词和近义词;对于由所述业务属性索引树中产生的冲突,保持现状不变。
本搜索方法的核心内容主要包含三部分:公安行业自然语言知识本体模型,公安领域的受控词表攫取平台,以及公安行业受控词库及其关联关系。
公安行业自然语言知识本体模型是整个发明的基础和核心,也是指导受控词表攫取平台开发的原则。通过聚类的方法,形成由公安信息要素、公安数据属性和公安应用领域三个维度组成的公安领域知识本体模型。通过聚类可以发现公安信息要素包含人员、物品物证痕迹、机构与组织、时空、行为和警务管理六大基本信息要素。每一类要素通过聚类方法,可以分为自然/基本属性、标识/标志/标记属性、业务属性、强制/行政/管理措施属性、法定文书属性、检验/鉴定/考核属性六大数据属性。根据应用领域的不同,可以在公安行业内应用到刑侦、反恐、治安、国保等部门。根据上述模型,可以将公安信息划分到某类要素的某种属性中,并具体分类到某种具体的应用领域,这样就能对公安行业内的所有信息按照统一的标准进行分类和整理。
基于上述知识本体模型的搜索方法,是利用网络技术、数据库技术以及文本处理手段,对公安网内的所有信息进行自动的采集和搜索,并对数据进行分析,在自然语言接口、词法分析、句法分析、语义分析、文本分类、文本聚类和知识库建设等方面采用多种算法,将数据划分到六个基础要素的某个特定属性中,从而自动形成由主题词、同义词、近义词、关联词、敏感词和热点词组成的公安行业基础受控词库,形成词与词之间的等同关系和等级。
更为重要的是,平台能自动识别并建立关联关系,关联关系包含两种,第一种词与词之间的关系,例如,人员A用刀刺伤人员B,这样人员A和人员B就有可能存在嫌疑人与受害人之间的关系。第二种是词与类别之间的关系,根据前面叙述的发明内容,将每个词汇都划分到某个具体类别中,使每个词和某个类别之间都建立一种明确对应关系。
最终形成的受控词库基于知识本体模型中的要素、数据属性和应用领域三个维度,从而形成包含公***信息的基础词库,完整的展现了公安信息的基础元素和结构,体现了词与词之间的等同关系、等级关系和关联关系。这样,公安人员在搜索某个关键词时,就可以同时搜索出它的同义词、近义词和关联词。
综上所述,本搜索技术建立了公安行业的自然语言知识本体模型,利用信息的要素属性、数据属性和应用领域三个属性,建立三维模型。在模型的基础上,开发实现了自动的公安行业受控词攫取平台,该平台采用多种分词算法和聚类算法,其最大的特点是能够自动的获取公安网内的信息,自动进行分析处理信息,自动形成受控词库,自动建立关联关系。此外,该平台还具备手工维护和修正受控词库的功能。受控词库由主题词、同义词、近义词、关联词、敏感词、热点词所组成,受控词同时体现了词与词的等同、等级和关联关系。这样就可以实现搜索范围的扩大。
与现有技术相比,本发明的优点:
本发明的优点是首次科学的建立了公安行业自然语言知识本体模型。该模型结构简单明了,易于应用和实施。同时,目前并未出现基于科学模型的受控词自动攫取平台,所以本发明也是首次实现了基于科学模型的受控词表自动攫取平台,该平台可维护,可扩展,部署完成后能够自动生成受控词表,为公安行业信息的持续整合利用奠定了基础。特别是本发明所开发出的搜索平台能够自动搜索出与目标词汇相关的词汇,这一点解决了公安行业内隐藏信息不易利用和关联的问题,是对现有技术的一个重要突破。
附图说明
图1为公安信息知识本体模型形成流程图;
图2为要素和属性构建方法;
图3公安领域知识本体模型;
图4为人员维度构建流程图;
图5为物品物证维度构建流程图;
图6为组织机构维度构建流程图;
图7为行为维度构建流程图;
图8为时空维度构建流程图;
图9为警务管理构建流程图;
图10为分类属性验证流程图;
图11受控词表攫取和维护平台流程图。
具体实施方式
首先建立模型,根据模型开发受控词攫取平台,生成受控词,建立受控词之间的关系,通过关系提供搜索服务。下面结合附图对本发明的具体实施方法进行详细描述:
1.构建自然语言知识本体模型
当前公安信息***中存在大量的信息数据,没有统一的分类原则,所以要确定一个可以规划公安信息***中信息数据的自然语言知识本体分类,分类通过要素、属性和数据来源三个方面进行。通过将公安行业信息数据进行聚类分析,形成了基本的公安业务信息数据模型。模型的建立过程如图1所示。
模型构建的具体方法为:
1)首先获取基础数据集合,包含大量实际案件数据、办公文档、公安标准,建立一个完备的分析数据仓库。
2)对分析数据仓库中的数据进行聚类分析,聚类分析是数据库中的一种数据挖掘技术,首先进行自由聚类,然后计算每个分类的特征值及其比例,并根据特征值在分类中的比例设置阈值,根据特征值是否达到阈值对分类进行合并,对于特征值达到阈值,并且特征一致的分类进行合并。根据计算得出的结果设置聚类分析中的分类数等聚类参数和规则,对全部数据重新进行聚类分析,然后重复上述步骤,最后可以得到一个合乎公安业务需要,并且不可拆分也不可合并的分类,这样就可以将案件信息拆分成人、物、时空、警务管理、组织机构和行为六个基本要素。分析方法如图2所示。
3)用实际的案件数据和公安信息验证这六个基本要素,可以确定没有出现六要素之外的信息。同时采用数据库中的钻取技术根据聚类的结果将数据划分为人、物、时空、警务管理、组织机构和行为六个类别。
4)对分类后的数据进行聚类分析,方法同步骤2)中的一样。从而形成如图3、图4、图5、图6、图7、图8所示方法,形成了六个维度模型,即描述人、物品/物证/痕迹、组织/机构、行为、时空、警务管理六个维度的切片维度模型。
5)通过钻取技术获取步骤4)中每个要素维度的数据,然后再次通过聚类方法分析每个维度中包含的数据。也就是采用步骤2)中所述的方法,对关于人的数据进行聚类,可以发现人要素信息包含自然/基本属性、标识/标志/标记属性、业务属性、强制/行政/管理措施属性、法定文书属性、检验/鉴定/考核属性。继续通过聚类分析的方法分析其他要素,依然能够发现包含这些属性,并且在分析其他要素的过程中,可以确定没有出现除上述六种属性以外的其他属性。从而最终形成基于公安信息处理领域的自然语言知识本体的分类属性,如图9中所示的以下分类属性:“自然/基本属性、标识/标志/标记属性、业务属性、强制/行政/管理措施属性、法定文书属性、检验/鉴定/考核属性”。
6)结合要素和属性,以及公安信息的来源三方面因素,就可以形成公安信息知识本体模型。图10为基于公安信息处理领域的自然语言知识本体的多维数据模型:
2.根据模型确定受控词分类原则,并根据此原则开发受控词攫取平台,生成受控词;
在模型已经确定的前提下,通过在整个公安信息***中的数据分析应用,将现有数据按照要素、要素维度(如图3~8所示)和分类属性(如图9所示)进行多次切片后,将可以明确现行数据所属的类别,确定相应的受控类别分类原则,方法如下:
第一步,读取要素,要素维度和分类属性中的特征值,这些特征值都存在于模型建立过程中,按照步骤2)、4)、5)的顺序依次进行聚类分析后所产生的聚类当中,每个聚类当中都包含构成该聚类所需要的所有特征。
第二步,计算聚类中(此处所说的聚类是模型建立过程中,按照步骤2)、4)、5)依次进行聚类分析所产生的聚类,即对不同要素、维度和属性分别进行聚类)每个特征值的比重,按照特征值在聚类中占据的比例大小,将比例高的特征值的名称作为聚类的名称,将聚类名称作为受控词类别的名称。
第三步,根据确定好的受控词类别,开发受控词攫取平台,该平台首先利用网络技术、数据库技术以及文本处理手段,对公安网内的所有信息进行自动的采集和搜索,建立基础数据库,此数据库中包含已有的公安信息***的历史数据,然后对数据库中的数据进行词法分析、句法分析、语义分析,找到数据中的主题词、同义词、近义词,根据词频分析(词频分析是自然语言处理中的一种分析词汇出现频率的一种分析方法,是一种公知技术)找到热词,最终根据受控词类别将数据划分到某个受控词类别中,每个类别建立一张受控词表,每个受控词表中有一个受控词来源字段,受控词攫取平台在划分受控词的过程中,自动将该受控词的来源信息填充到该字段中。从而自动形成由主题词、同义词、近义词和热点词组成的公安行业基础受控词库,这样就为搜索方法建立了基础。
3.建立词汇之间的关联关系
为了能够在公安***内实现最大程度的信息搜索,在建立前面所述的模型和受控词攫取平台的基础上,接下来就是要建立起词与词之间,词与受控词类别之间的关联关系。从本质上讲,关联关系也是受控词攫取平台的一部分功能。
关联关系分为两种:一种是词与受控词类别的关系,一种是词与词之间的关系。通过受控词攫取平台,自动将词汇划分到某个受控词类别中,例如,将“棍棒”划分到作案工具类别,使棍棒属于作案工具,这样从数据库的物理存储形式上建立了受控词与类别之间的关系,但是并没有一种通用的方法来进行检索,所以必须通过下面的聚类索引方法建立起受控词之间的关系,便于进行查找。
3.1词与类别的关系
为了便于搜索词与类别之间的关系,基于聚类索引方法,针对同一受控词,分别通过自然属性、业务属性和数据属性三个角度生成索引号,通过索引号进行检索,即可确定词与类别之间的关系,例如,我们规定R1就是人员类别,通过判断某个受控词的开头是不是R1,即可判断该词汇是否属于人员类别。通过对受控词库建立自然属性索引树、业务属性索引树和数据属性索引树,即从自然、业务和数据属性三个角度来建立索引树,树是数据结构中的一个公知概念,是从根节点到最后的受控词(也就是叶节点),对其中的每个节点都进行统一规则的编号;索引树起始于要素节点,结束于公安信息化受控词(表)节点,在索引树中确定可规范为数据代码、术语等类型的受控词的唯一位置,实现查找和关联时的唯一性。
3.1.1编码规则,即多维索引号编码规则:
将数据仓库中的数据首先按照数据维度分类,再按照数据分类属性进行分类,再根据受控词的限定进行分类,直到最后的受控词类别,总共分成4段,每段都从01开始赋值,例如:
公民身份号码:受控词为:身份、证件、身份证号码
自然属性索引号:R100010101
R1________00_________01__________01____________01
人     境内人员  境内外公民  身份证件类别   受控词(类别)
业务属性索引号:R202020101
R2________02_________02_________01___________01
人     户政业务  标识类别  身份标识种类   受控词(类别)
数据属性索引号:R300010100
R3________00_________01_____________01______________00
人     境内人员  证件类别  身份证件类别主题词  无受控词(类别)
通过前面的例子可以清楚地看到,根据受控词的基本构成,本编码规则的任意受控词索引树由数据维度、数据分类属性、受控词限定类、受控词及其受控词代码值组合而成。当数据分类属性为不可再分的数据对象时,数据分类属性和受控词限定类可以合并,如下面的例子所示。
公安机关机构代码:受控词(表)为:公安机关机构代码表
自然属性索引号:Z121520
Z1________2__________15___________20
组织  警务机构  警务机构类别  受控词(类别)
业务属性索引号:Z2151208
Z2________15___________12____________08
组织  警务机构类别  警务机构标识  受控词(类别)
数据属性索引号:Z330205
Z3_______3_______________02___________________05
组织  标识类别  警务机构类别主题词标识    受控词(类别)
综合上述两种情况,受控词的编码规则表示如下,以身份证号码为例,其中受控词限定类和受控词可以合并,举例如下:
公民身份号码:受控词为:身份号码、身份证号码
自然属性索引号:R100010101
R1_______00_________________01______________01____________01
人    境内人员          境内外公民    身份证件类别   受控词(类别)
数据  维度数据分类属性  受控词限定类  受控词         受控词代码值
根据前述的编码规则,即可以对数据仓库中所有的受控词进行编码,每个受控词表都有一个对应的索引字段,用于保存受控词所对应的索引号。在用户检索某个受控词时,只需要通过判断索引号不同分段的代码,就可以判断这个受控词属于那个受控词类别,同时可以找到该受控词的同级受控词,以及它的上级和下级受控词,这样就建立起受控词的等同关系和等级关系。
3.1.2排重规则:
一个受控词或数据代码可以具有三组索引号,自然属性索引号和业务属性索引号为独立索引号,数据属性索引号为相关索引号。当任意一个受控词名称在本索引树中具有唯一索引号时,则表明在本索引范围内未产生冲突。出现下面现象时即为出现冲突:
异名冲突由自然属性索引树和业务属性索引树中的受控词(表和主题词)引起,基本的异名数据冲突表现为:
●当任意两个以上受控词在索引号中出现数据分类属性、受控词限定类相同,受控词名不同,而受控词同时具有相同部分和不相同部分时,或者具备完全相同的部分时,则将产生代码冲突,体现为受控词名的异名同义冲突;
●当任意两个以上受控词在索引号中出现数据分类属性、受控词限定类相同,受控词名不同,而受控词代码表项不同时,则也将产生代码冲突,体现为受控词名的异名同义异码冲突。
●当任意两个以上受控词在索引号中出现数据分类属性相同、受控词限定类不唯一、且受控词也相同时,则将产生受控词定义冲突,体现为受控词名的同名异义冲突;
●当任意两个以上受控词在索引号中出现数据分类属性、受控词限定类、受控词均相同,但受控词代码值项相同,而代码表示不相同时,则将产生受控词代码表示冲突,体现为受控词代码的同名同义异码冲突;
●当任意两个以上受控词在索引号中出现数据分类属性、受控词限定类、受控词均相同,但受控词代码值项不相同不相同时,则将产生受控词域值冲突,体现为受控词代码的同名同义值域冲突;
冲突的解决办法:
在上述冲突中,产生于自然属性索引树中的冲突属于错误性冲突,应该由唯一的受控词进行规范,并同时给出同义词和近义词,例如洗浴、足疗和洗脚屋,统一规范为足疗,同时确定足疗的同义词和近义词为洗浴和洗脚屋。而产生于业务属性索引树中的冲突,属于合理性冲突的,应保持现状不变,这是由于合理性冲突已经广泛地存在于侦查、审判、强制手段等法律行为和法律文书中,改正冲突将导致大量的历史档案失去法律效力。这样,通过索引树编码和排重,即可确定受控词与受控词类别之间的惟一关系。
3.2受控词与受控词之间的关联关系
通过模型建立起来的受控词攫取平台,可以在处理文本和历史数据时,发现受控词和受控词之间的关联关系,方法如下:
第一步:通过服务器端的受控词攫取平台处理公安信息,生成受控词,这些公安信息可能是一篇文本,一条数据库记录等各种格式。
第二步:如果在同一条公安信息中发现多个受控词,通过每一受控词所属类别的名称,可以找到该受控词对应的聚类,如果聚类中的特征值存在交集,那么就可以确定两个受控词之间存在紧密的关联关系。如果两个受控词不在同一公安信息中,则直接找到该受控词对应的聚类,如果聚类的特征值存在交集,则认为两个受控词存在松散的关联关系。
第三步:在关联关系表中查找是否已经找到过相同的关联关系,如果没有,则将受控词相关的公安信息连同受控词一起记录到关联关系表中,同时通过不同的数值记录关联关系是紧密的还是松散的。如果在关联关系表中找到了相同的关联关系,则记录相关公安信息,以利于下次查找时直接给出结果,提高查找效率。
通过上述处理方法,即可建立受控词之间的关联关系。
4.开发和应用
本发明描述的模型、根据模型生成的受控词以及受控词建立起来的关联关系,主要是应用在公安业务上的数据查询方法。该数据查询方法的实现主要包含三个步骤。
第一步,受控词的攫取平台。根据数据模型及相应的规则,可以得到无冲突的受控词表,数据模型就最开始的知识本体模型,规则就是前述的所有方法,开发数据采集工具,采集现有公安***中的文档、已有数据库数据和网页信息,通过数据迁移工具将其放到一个临时的数据库中,通过标注标引工具对其进行语料加工,也就是对原始数据进行标注标引,标注标引完成后,采用前面所述的数据模型和相应规则,通过数据抽取工具对原始数据进行抽取,即可将抽取出的词汇放入对应的受控词表中,此外,还开发受控词表的维护工具,对已有的受控词进行维护,从而生成完善的自然语言知识本体模型的受控词表攫取平台,整体流程和功能模块如图11所示,完成这一功能模块,也意味着数据查询方案具有不断学习和完善功能。
第二步:通过自动建立关联关系,实现查找结果的关联功能。建立词与类别的关联关系,公安人员在查找相关内容时,即可发现所查找词汇的精确属性和分类。建立词与词之间的关联关系后,即可在查找时,不仅能够找到所查找词汇的相关信息,更能找到与之相关的公安业务信息,而这种信息是在以往的搜索方案中不能实现的,这样就最大程度的利用的以往的历史数据和信息,从而为案件侦破提供有力的支持。
第三步:通过上述方法建立搜索引擎,服务器端,能够在公安网内自动搜集信息,不断完善受控词。对于客户的查询请求,在建立的受控词库中查找与输入词匹配的受控词,自动将搜索目标词汇的同义词、近义词、关联词以及这些词汇所涉及的预料返回给客户。这样,就实现了公安行业信息的最大化利用。
表1~6是根据上述规则构建出的六个维度及其包含的分类属性和受控词类别。
表1人维度及其分类属性和受控词类别
Figure BDA0000097877920000111
表2物维度及其分类属性和受控词类别
Figure BDA0000097877920000121
表3组织维度及其分类属性和受控词类别
Figure BDA0000097877920000131
表4时空维度及其分类属性和受控词类别
Figure BDA0000097877920000141
表5行为维度及其分类属性和受控词类别
Figure BDA0000097877920000151
表6警务管理维度以及分类属性和受控词类别
Figure BDA0000097877920000161

Claims (10)

1.一种基于公安领域知识本体模型的信息搜索方法,其步骤为:
1)获取公安领域的基础数据集合,建立一个分析数据仓库;
2)对所述分析数据仓库中的数据进行聚类分析,得到人、物、时空、警务管理、组织机构和行为六个基本要素的聚类结果;
3)根据所述聚类结果将所述分析数据仓库中的数据划分为人、物、时空、警务管理、组织机构和行为六个类别;
4)对分类后的每一类别数据进行聚类分析,得到每一类别基本要素的要素维度;
5)对每个要素维度中包含的数据进行聚类分析,得到每个要素维度的分类属性;
6)根据所述基本要素、要素维度和分类属性中的特征值名称确定受控词类别的名称,然后按照受控词类别,将公安数据划分到相应受控词类别中,得到受控词库;其中,对每一类别建立一张受控词表,每个受控词表中有一受控词来源字段;
7)对所述受控词库采用聚类索引方法,针对同一受控词,建立受控词的自然属性索引号、业务属性索引号和数据属性索引号;
8)对输入的查询请求,通过任一所述索引号在所述受控词库中匹配查找与输入词有关联关系的受控词。
2.如权利要求1所述的方法,其特征在于进行聚类分析得到所述聚类结果的方法为:首先对所述分析数据仓库中的数据进行自由聚类,然后计算每个分类的特征值及其比例,并根据特征值在分类中的比例设置阈值,将特征值达到阈值,并且特征一致的分类进行合并;然后根据分类结果设置聚类分析中的分类数和聚类规则,对所述分析数据仓库中的数据重新进行聚类分析,得到所述聚类结果。
3.如权利要求2所述的方法,其特征在于确定所述受控词类别的名称的方法为:计算每次聚类中每个特征值的比重,按照特征值在聚类中占据的比例大小,将比例高的特征值的名称作为受控词类别的名称。
4.如权利要求2所述的方法,其特征在于所述基本要素人的要素维度包括:实有人口、外籍人员、港澳台人员、违法犯罪人员、在逃人员、警官、事业文职、协警;所述基本要素物的要素维度包括:一般物品、***、机动车、物证、书证、生理特征、物理特征、化学特征;所述基本要素组织的要素维度包括:户政组织、社团组织、公民自治、国家行政、国家事业、涉案机构、黑恶势力、团伙组织、警务机构、保安机构;所述基本要素行为的要素维度包括:生活行为、社交行为、特征行为、违法违纪行为、犯罪行为、管控行为、侦查行为、检查行为;所述基本要素时空的要素维度包括:时间、时区、时段、地域、地段、网络空间、GIS现场、电子现场;所述基本要素警务管理的要素维度包括:警员管理、 文书管理、制度管理、国家行政、国家事业、涉案机构、黑恶势力、团伙组织、警务机构、保安机构。
5.如权利要求1所述的方法,其特征在于三种所述索引号均包括:数据维度、数据分类属性、受控词限定类、受控词及其受控词代码值。
6.如权利要求1或2或3或4或5所述的方法,其特征在于所述要素维度的分类属性包括:自然/基本属性、标识/标志/标记属性、业务属性、强制/行政/管理措施属性、法定文书属性、检验/鉴定/考核属性。
7.如权利要求6所述的方法,其特征在于所述按照受控词类别,将公安数据划分到某个受控词类别中的方法为:首先,根据确定好的受控词类别,对公安数据进行自动的采集和搜索,建立基础数据库;然后对所述基础数据库中的数据进行词法分析、句法分析、语义分析,找到数据中的主题词、同义词、近义词,并计算词的词频,根据词频得到热点词;最后根据受控词类别将数据划分到某个受控词类别中,从而形成包括主题词、同义词、近义词和热点词的所述受控词库。
8.如权利要求7所述的方法,其特征在于生成所述受控词库的过程中,如果在同一条公安信息中有多个受控词,则通过每一受控词所属类别的名称,找到该受控词对应的聚类,如果聚类中的特征值存在交集,则确定两个受控词之间存在紧密的关联关系;如果两个受控词不在同一公安信息中,则找到该受控词对应的聚类,如果聚类的特征值存在交集,则两受控词存在松散的关联关系;然后,将所述关联关系存储到一关联关系表中,并在所述关联关系表中查找是否存在相同的关联关系,如果没有,则将受控词相关的公安信息连同受控词一起记录到所述关联关系表中,同时标记所述关联关系是紧密的,还是松散的;如果所述关联关系表中存在相同的关联关系,则记录相关公安信息。
9.如权利要求7所述的方法,其特征在于所述自然属性索引号和业务属性索引号为独立索引号,所述数据属性索引号为相关索引号。
10.如权利要求9所述的方法,其特征在于对所述受控词库进行排重处理,其方法为:对于由所述自然属性索引树中产生的受控词冲突,对冲突受控词进行规范统一,并同时给出同义词和近义词;对于由所述业务属性索引树中产生的冲突,保持现状不变。 
CN 201110306999 2011-10-11 2011-10-11 一种基于公安领域知识本体模型的信息搜索方法 Active CN102314519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110306999 CN102314519B (zh) 2011-10-11 2011-10-11 一种基于公安领域知识本体模型的信息搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110306999 CN102314519B (zh) 2011-10-11 2011-10-11 一种基于公安领域知识本体模型的信息搜索方法

Publications (2)

Publication Number Publication Date
CN102314519A CN102314519A (zh) 2012-01-11
CN102314519B true CN102314519B (zh) 2012-12-19

Family

ID=45427684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110306999 Active CN102314519B (zh) 2011-10-11 2011-10-11 一种基于公安领域知识本体模型的信息搜索方法

Country Status (1)

Country Link
CN (1) CN102314519B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779288B (zh) * 2012-06-26 2015-09-30 中国矿业大学 一种基于场理论的本体分析方法
CN103049524B (zh) * 2012-12-20 2016-01-06 中国科学技术信息研究所 同义词检索结果按词义自动聚类方法
CN103902280B (zh) * 2012-12-24 2017-04-12 中国电信股份有限公司 事务处理方法及装置
CN104598475B (zh) * 2013-10-31 2018-02-23 ***通信集团公司 基于行车用量模型事件的存储及索引方法及***
CN104142986B (zh) * 2014-07-24 2017-08-04 中国软件与技术服务股份有限公司 一种基于聚类的大数据态势分析预警方法及***
CN104123466B (zh) * 2014-07-24 2017-07-07 中国软件与技术服务股份有限公司 一种基于常态模式的大数据态势分析预警方法及***
CN104102730B (zh) * 2014-07-24 2017-04-26 中国软件与技术服务股份有限公司 一种基于已知标签的大数据常态模式提取方法及***
CN104123368B (zh) * 2014-07-24 2017-06-13 中国软件与技术服务股份有限公司 基于聚类的大数据属性重要性和辨识度的预警方法及***
CN104156403B (zh) * 2014-07-24 2017-08-11 中国软件与技术服务股份有限公司 一种基于聚类的大数据常态模式提取方法及***
CN104156402B (zh) * 2014-07-24 2017-06-13 中国软件与技术服务股份有限公司 一种基于聚类的常态模式提取方法及***
CN108351971B (zh) * 2015-10-12 2022-04-22 北京市商汤科技开发有限公司 对标记有属性的对象进行聚类的方法和***
CN105608658A (zh) * 2015-12-25 2016-05-25 北京奇虎科技有限公司 案件分析指导方法和设备
CN107464061A (zh) * 2017-08-09 2017-12-12 郑州市公安局 一种支撑公安侦查指挥的合成研判方法
CN107748786B (zh) * 2017-10-27 2021-09-10 南京西三艾电子***工程有限公司 警情大数据管理***
CN110020134B (zh) * 2017-11-09 2021-08-13 北京国双科技有限公司 一种知识服务信息的推送方法、***、存储介质和处理器
CN110751568B (zh) * 2018-07-20 2024-04-30 武汉烽火众智智慧之星科技有限公司 一种人员关系亲密度分析方法及装置
CN109299199A (zh) * 2018-10-15 2019-02-01 河北师范大学 基于数据仓库的易制毒化学品多维分析***及实现方法
CN111538832A (zh) * 2019-02-02 2020-08-14 富士通株式会社 用于对文书进行事件标注的装置和方法及记录介质
CN110196977B (zh) * 2019-05-31 2023-06-09 广西南宁市博睿通软件技术有限公司 一种智能警情督导处理***及方法
CN110781189B (zh) * 2019-10-25 2022-08-26 北京达佳互联信息技术有限公司 文档平台构建方法、装置、电子设备及存储介质
CN110765329B (zh) * 2019-10-28 2022-09-23 北京天融信网络安全技术有限公司 一种数据的聚类方法和电子设备
CN111797335B (zh) * 2020-07-06 2024-06-14 北京基软科技有限公司 一种多维信息的发布与检索***及其方法
CN112148750B (zh) * 2020-10-20 2023-04-25 成都中科大旗软件股份有限公司 一种数据集成方法及***
CN114239591B (zh) * 2021-12-01 2023-08-18 马上消费金融股份有限公司 敏感词识别方法及装置
CN114860865A (zh) * 2022-05-05 2022-08-05 北京达佳互联信息技术有限公司 索引构建及资源召回方法、装置、电子设备和存储介质
CN114896359A (zh) * 2022-05-13 2022-08-12 国网江苏省电力有限公司信息通信分公司 一种知识本体信息的搜索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044491A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システムならびに同システムにおける分析条件設定方法、分析条件保存方法および再分析処理方法
US7836460B2 (en) * 2005-12-12 2010-11-16 International Business Machines Corporation Service broker realizing structuring of portlet services
CN101894170B (zh) * 2010-08-13 2011-12-28 武汉大学 基于语义关联网络的跨模信息检索方法
CN102087669B (zh) * 2011-03-11 2013-01-02 北京汇智卓成科技有限公司 基于语义关联的智能搜索引擎***

Also Published As

Publication number Publication date
CN102314519A (zh) 2012-01-11

Similar Documents

Publication Publication Date Title
CN102314519B (zh) 一种基于公安领域知识本体模型的信息搜索方法
CN105468605B (zh) 一种实体信息图谱生成方法及装置
Bozarth et al. Toward a better performance evaluation framework for fake news classification
Arulanandam et al. Extracting crime information from online newspaper articles
Salloum et al. Mining text in news channels: a case study from Facebook
Caldarola et al. An approach to ontology integration for ontology reuse in knowledge based digital ecosystems
CN108984667A (zh) 一种舆情监测***
Martin et al. A framework for business intelligence application using ontological classification
Kawai et al. ChronoSeeker: Search engine for future and past events
CN109145161A (zh) 中文地名查询方法、装置及设备
CN110347820A (zh) 一种电网文本信息匹配的方法、***和存储介质
Basilio et al. Identification of operational demand in law enforcement agencies: An application based on a probabilistic model of topics
CN116383395A (zh) 一种水文模型领域知识图谱的构建方法
Tsagkias et al. Hypergeometric language models for republished article finding
Panggabean et al. Analysis of Twitter Sentiment Towards Madrasahs Using Classification Methods
Wu et al. An event timeline extraction method based on news corpus
CN113377739A (zh) 知识图谱应用方法、平台、电子设备及存储介质
Fatudimu et al. Knowledge discovery in online repositories: a text mining approach
US11354519B2 (en) Numerical information management device enabling numerical information search
Grant et al. Contextualized semantic analysis of web services
Sabah et al. Google Scholar University Ranking Algorithm to Evaluate the Quality of Institutional Research.
ElGindy et al. Capturing place semantics on the geosocial web
KR101756898B1 (ko) 데이터구조를 이용한 수치정보관리장치
Al-augby et al. USING RULE TEXT MINING BASED ALGORITHM TO SUPPORT THE STOCK MARKET INVESTMENT DECISION.
Wei Information fusion in taxonomic descriptions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant